Linear Classification (선형 분류)

선형 분류 (Linear Classification)

k-Nearest Neighbor (kNN) 분류기의 단점

이 분류기는 모든 학습 데이터를 기억해야 하고, 나중에 테스트 데이터와 비교하기 위해 저장해 두어야 한다. 이것은 메모리 공간 관점에서 매우 비효율적이다.
테스트 이미지를 분류할 때 모든 학습 이미지와 다 비교를 해야 하기 때문에 매우 계산량/시간이 많이 소요된다.

Overview.

스코어 함수: 데이터를 클래스 스코어로 매핑
손실 함수: 예측한 스코어와 실제(ground truth) 라벨과의 차이를 정량화

이미지에서 라벨 스코어로의 파라미터화된 매핑(mapping).

스코어 함수: 이미지의 픽셀 값들을 각 클래스에 대한 신뢰도 점수 (confidence score)로 매핑

학습 데이터 셋 이미지들인 $x_i∈R^D$가 있고, 각각이 해당 라벨 $y_i$를 갖고 있다고 하자. 여기서 $i=1…N$, 그리고 $y_i∈\{1…K\}$ 이다. 즉, 학습할 데이터 N 개가 있고 (각각은 D 차원의 벡터이다.), 총 K 개의 서로 다른 카테고리(클래스)가 있다.

e.g. CIFAR-10 에서는 N = 50,000 개의 학습 데이터 이미지들이 있고, 각각은 D = 32 x 32 x 3 = 3072 픽셀로 이루어져 있으며, (dog, cat, car, 등등) 10개의 서로 다른 클래스가 있으므로 K = 10 이다.

이미지의 픽셀값들을 클래스 스코어로 매핑해 주는 스코어 함수 $f:R^D↦R^K$를 아래에 정의할 것이다.

선형 분류기 (Linear Classifier).

$f(x_i,W,b)=Wx_i+b$

각 이미지 $x_i$의 모든 픽셀들이 [D x 1] 모양을 갖는 하나의 열 벡터로 평평하게 했다고 가정하였다.

함수의 파라미터: [K x D] 차원의 행렬 W 와 [K x 1] 차원의 벡터 b

W 안의 파라미터들은 보통 weight라고 불리고, b는 bias 벡터라 불리는데, 그 이유는 b가 실제 입력 데이터인 $x_i$와의 아무런 상호 작용이 없이 출력 스코어 값에는 영향을 주기 때문이다.

e.g. CIFAR-10 에서 $x_i$는 i번째 이미지의 모든 픽셀을 [3072 x 1] 크기로 평평하게 모양을 바꾼 열 벡터가 될 것이고, W는 [10 x 3072], b는 [10 x 1] 여서 3072 개의 숫자가 함수의 입력(이미지 픽셀 값들)으로 들어와 10개의 숫자가 출력(클래스 스코어)으로 나오게 된다.

짚고 넘어갈 점

먼저, 한 번의 행렬곱 $Wx_i$만으로 10 개의 다른 분류기(각 클래스마다 하나씩)를 병렬로 계산하는 효과를 나타내고 있다. 이 때 W 행렬의 각 열이 각각 하나의 분류기가 된다.