이미지나 영상에서 특정 객체를 탐지하고 영역을 인식하는 컴퓨터비전 기술
분류(Classification) 작업
이미지에서 물체가 어떤 종류인지를 분류하는 작업을 의미하며, 앞서 다룬 이미지 분류 작업과 동일하게 각각의 클래스에 대한 확률값을 분석한다.
지역화(Localization) 작업
이미지에서 물체의 위치를 파악하는 작업을 의미한다. 이미지에서 물체가 위치한 영역을 찾아 해당 영역의 좌푯값을 예측한다.
객체 탐지는 이미지 분류와 위치 탐지가 동시에 이루어지는 작업이므로 더 복잡한 분석 과정을 요구한다.
객체 영역을 표현하는 방법
경계 상자(Bounding Box)
객체의 영역을 사각형 형태로 표현하며 이미지에서 객체의 위치와 크기를 파악할 수 있다. 경계 상자는 정사각형 또는 직사각형의 구조로 선분이 수평 또는 수직한 구조를 갖는다.
마스크(Mask)
객체 영역을 픽셀 단위로 정확하게 분할(Segmentation)해 표현하는 방식으로 객체 영역의 정확한 표현을 위해 사용된다. 마스크는 각 픽셀마다 클래스 정보를 갖고 있다.
객체 탐지 방법
경계 상자 탐지(Bounding Box Detection)
경계 상자를 활용해 객체의 영역을 간단하게 표현하는 방법으로, 다른 객체 검출 방법에 비해 처리 속도가 빠르다는 장점이 있다. 하지만 경계 상자는 객체의 영역을 항상 정사각형 또는 직사각형으로 표현하기 때문에 객체의 상세한 영역은 파악하기 어렵다는 단점이 있다.
의미론적 분할(Semantic Segmentation, 시맨틱 세그멘테이션)
마스크 방식을 사용해 이미지에서 객체와 배경을 픽셀 단위로 분할하는 방식이다. 객체의 영역을 정확히 분할하기 때문에 객체의 상세한 모양을 확인할 수 있고, 배경과 같이 광범위한 영역의 객체도 검출할 수 있다. 하지만 픽셀 단위로 분류하기 때문에 계산 비용이 높고 객체 간 경계에서 오분류할 가능성이 높다.
객체 분할(Instance Segmentation, 인스턴스 세그멘테이션)
이미지에서 객체를 픽셀 단위로 분리하고, 경계 상자와 클래스 레이블을 추출한다. 객체 분할은 경계 상자 탐지와 의미론적 분할의 기능을 모두 갖고 있기 때문에 더 정확한 객체 인식이 가능하다. 경계 상자와 마스크 방식을 모두 사용하므로 다른 방법보다 높은 계산 비용을 필요로 하며, 더 많은 학습 데이터를 요구한다.

객체 영역 추정 단계에서 발생하는 병목 현상을 개선
GPU에서 깊은 VGG-16 모델 사용
중간 단계에서의 처리나 변환 없이 입력과 출력 사이의 관계를 직접 학습해 결과를 예측한다. 이를 통해 모델 구성과 훈련이 더욱 간단하고 효율적으로 이뤄진다.
모델의 유연성이 뛰어나 다른 모델과의 조합을 통해 성능을 높일 수 있으며 다양한 변형 모델에서도 우수한 성능을 제공한다.