CvT | Notion

<aside> 📢 허깅 페이스 라이브러리에서 제공하는 사전 학습된 microsoft/cvt-21 모델을 사용

</aside>

<aside> 📢 ImageNet-1k 데이터세트를 사용해 224x224 이미지 크기로 학습됐다.

</aside>

Untitled

Untitled

비전 트랜스포머 모델 비교

	ViT	스윈 트랜스포머	CvT
모델 크기	327.325MB	105.227MB	120.791MB
F1-점수	0.9231	0.9159	0.9173
초당 처리 수	29.636 eval/s	58.048 eval/s	44.778 eval/s
총평	F-1 점수가 가장 높은 모델	모델 크기 대비 가장 우수한 성능	가장 일반화 성능이 좋음