Optimization: Stochastic Gradient Descent (최적화: 확률 그라디언트 하강)

이전 섹션

이미지 분류(image classification)을 할 때에 있어 두 가지의 핵심요소

원 이미지의 픽셀들을 넣으면 분류 스코어(class score)를 계산해주는 파라미터화된(parameterized) 스코어함수(score function) (예를 들어, 선형함수).
학습(training) 데이터에 어떤 특정 파라미터(parameter/weight)들을 가지고 스코어함수(score function)를 적용시켰을 때, 실제 class와 얼마나 잘 일치하는지에 따라 그 특정 파라미터(parameter/weight)들의 질을 측정하는 손실함수(loss function)(예를 들어, Softmax/SVM)

선형함수 $f(x_i,W)=Wx_i$ 를 스코어함수(score function)로 쓸 때, 앞에서 다룬 바와 같이 SVM은 다음과 같은 수식으로 표현:

$L=\frac1N∑\limits_i∑\limits_{j≠y_i}[max(0,f(x_i;W)j−f(x_i;W)y_i+1)]+αR(W)$

$x_i$에 대한 예측값이 실제 값(레이블, labels) $y_i$과 같도록 설정된 파라미터(parameter/weight) $W$는 손실(loss)값 $L$ 또한 매우 낮게 나온다

최적화(optimization)

손실함수(loss function)을 최소화시키는 파라미터(parameter/weight,$W$)들을 찾는 과정

손실함수(loss function)의 시각화

손실함수(loss function)들은 대체로 고차원 공간에서 정의

e.g. CIFAR-10의 선형분류기(linear classifier)의 경우 파라미터(parameter/weight) 행렬은 크기가 [10 x 3073]이고 총 30,730개의 파라미터(parameter/weight)가 있다. 따라서, 시각화하기가 어려운 면이 있다.

$\therefore$ 고차원 공간을 1차원 직선이나 2차원 평면으로 잘라서 보면 약간의 직관을 얻을 수 있다.

e.g. 무작위로 파라미터(parameter/weight) 행렬 $W$을 하나 뽑는다고 가정해보자. (이는 사실 고차원 공간의 한 점인 셈이다.) 이제 이 점을 직선 하나를 따라 이동시키면서 손실함수(loss function)를 기록해보자. 즉, 무작위로 뽑은 방향 $W_1$을 잡고, 이 방향을 따라 가면서 손실함수(loss function)를 계산하는데, 구체적으로 말하면 $L(W+aW_1)$에 여러 개의 $a$값(역자 주: 1차원 스칼라)을 넣어 계산해보는 것이다. 이 과정을 통해 우리는 $a$값을 x축, 손실함수(loss function) 값을 y축에 놓고 간단한 그래프를 그릴 수 있다.

또한 이 비슷한 것을 2차원으로도 할 수 있다. 여러 $a,b$값에 따라 $L(W+aW_1+bW_2)$을 계산하고(역자 주: $W_2$ 역시 $W_1$과 같은 식으로 뽑은 무작위 방향), $a,b$는 각각 x축과 y축에, 손실함수(loss function) 값 색을 이용해 그리면 된다.

Regularization 없는 멀티클래스 SVM의 손실함수(Loss function)의 지형을 CIFAR-10 데이타의 1개의 예시(왼쪽, 가운데)와 여러 개의 예시(오른쪽)에 적용시켜 그려본 그림들. 왼쪽: 여러 a값에 따른 1차원 손실(loss) 곡선. 가운데, 오른쪽: 2차원 손실(loss) 평면, 파란색은 낮은 손실(loss)를 뜻하고, 빨간색은 높은 손실(=loss)를 뜻한다. 손실함수(Loss function)가 부분적으로 선형(piecewise linear)인 것이 특징이다. 특히, 오른쪽 그림은 여러 예시를 통해 구한 손실(loss)들을 평균낸 것인데, 밥공기 모양인 것이 특징이다. 이는 가운데 그림 같은 각진 모양의 밥공기 여러 개를 평균낸 모양인 셈이다.

부분적으로 선형(piecewise linear)은 손실함수(Loss function)의 구조를 수식을 통해 설명할 수 있다.

$L_i=∑\limits_{j≠y_i}[max(0,w^T_jx_i−w^T_{y_i}x_i+1)]$

각 예시의 손실(loss)값은 ($max(0,−)$ 함수로 인해 0에서 막혀있는) $W$의 선형함수들의 합으로 표현된다. $W$의 각 행(즉, $w_j$) 앞에는 때때로 (잘못된 분류일 때, 즉, $j≠y_i$인 경우) 플러스가 붙고, 때때로 (옳은 분류일 때) 마이너스가 붙는다.

e.g. 3개의 1차원 점들과 3개의 클래스가 있다고 해보자. Regularization 없는 총 SVM 손실(loss)은 다음과 같다.