<aside> 📢 허깅 페이스 라이브러리에서 제공하는 사전 학습된 microsoft/cvt-21 모델을 사용
</aside>
<aside> 📢 ImageNet-1k 데이터세트를 사용해 224x224 이미지 크기로 학습됐다.
</aside>


| ViT | 스윈 트랜스포머 | CvT | |
|---|---|---|---|
| 모델 크기 | 327.325MB | 105.227MB | 120.791MB |
| F1-점수 | 0.9231 | 0.9159 | 0.9173 |
| 초당 처리 수 | 29.636 eval/s | 58.048 eval/s | 44.778 eval/s |
| 총평 | F-1 점수가 가장 높은 모델 | 모델 크기 대비 가장 우수한 성능 | 가장 일반화 성능이 좋음 |