<aside> 📢 허깅 페이스 라이브러리에서 제공하는 사전 학습된 microsoft/cvt-21 모델을 사용

</aside>

<aside> 📢 ImageNet-1k 데이터세트를 사용해 224x224 이미지 크기로 학습됐다.

</aside>

CvT.ipynb

Untitled

Untitled

비전 트랜스포머 모델 비교

ViT 스윈 트랜스포머 CvT
모델 크기 327.325MB 105.227MB 120.791MB
F1-점수 0.9231 0.9159 0.9173
초당 처리 수 29.636 eval/s 58.048 eval/s 44.778 eval/s
총평 F-1 점수가 가장 높은 모델 모델 크기 대비 가장 우수한 성능 가장 일반화 성능이 좋음