편향/분산 트레이드오프
모델의 새로운 데이터를 예측할 때, 모델의 오차는 다음 세 가지의 오차의 합으로 표현할 수 있다. 자세한 유도과정은 단순한 계산의 반복이기에 따로 다루지 않겠다.
(모델의 오차) = (편향)^2 + (분산) + (줄일 수 없는 오차)
•
•
•
따라서 모델의 오차를 평가할 때 편향과 분산을 고려한다. 일반적으로 모델의 복잡도가 커지면 분산은 증가하고 편향은 줄어드는 경향이 있다.
릿지 회귀(Ridge regression)
Ridge regression은 회귀 계수의 크기만큼의 패널티를 부과하는 방법이다. RSS를 사용하여 나타내면 다음과 같다.
는 complexity parameter로 패널티의 정도를 조절한다. RSS를 통한 릿지는 이후에 신경망을 다룰 때 weight decay로 다시 활용된다. 위 릿지 문제는 라그랑주 승수법을 활용하면 아래의 문제를 푸는 것과 동치이다.
즉, 회귀 계수를 상수 보다 작거나 같다는 제약조건을 걸어 RSS를 푸는 문제이므로 독립변수들간의 스케일링이 먼저 이뤄져야 한다. 따라서 다음부터 나올 독립변수들은 아래와 같은 표준화가 이뤄졌다고 가정하고 논의를 이어나간다.
릿지 회귀를 행렬표현으로 바꿔 해를 구하면 다음과 같다.
따라서
이다. 위 식이 릿지 회귀를 제안하였을 때 처음 나온 식이다. 예를 들어 일 경우, 는 full-rank가 아니기에, 역행렬을 가지지 않는다. 때문에 각 대각원소에 를 더해 역행렬을 구할 수 있도록 처음 제안되었었다.(Hoerl and Kennard, 1970).
를 특잇값 분해를 통해 다음과 같이 나타낼 수 있다.
는 직교행렬로 각각 의 열공간과 행공간를 span하고, 는 대각원소가 의 특잇값 (의 고윳값의 제곱근, 참고로 의 공분산 행렬은 이다.)인 대각행렬이다.
특잇값 분해를 통해 최소제곱해를 나타내면 다음과 같다.
의 컬럼벡터들은 의 열공간의 정규직교 기저이므로, 를 의 열공간에 정사영시킨 을 직교기저 와 스칼라 의 선형결합을 통해 표현한 것이다. 마찬가지로 릿지회귀의 해를 나타내면 다음과 같다.
즉, 에 의해 에 대한 의 영향력이 줄어든다. 가 크면 1에 가까워지고, 매우 작으면 0에 가까워져 해당 변수에 대한 영향력이 줄어든다. 여기서 가 작은 값을 갖는 것은 무엇을 의미하는지 더 알아보자.
로, 이는 의 교윳값 분해로도 볼 수 있다. 고유벡터 (의 번째 컬럼벡터)는 의 주성분 방향(principal component direction)이라고 한다. first principal component 에 대해 는 의 열공간의 선형결합 중 가장 큰 분산을 가지며, 다음과 같이 표현할 수 있다.
또한 이므로, 이다. 즉 작은 는 의 작은 분산을 가지는 방향이고, 릿지는 이러한 방향들의 영향을 줄여준다.
릿지 회귀는 위의 그림에서 를 Principal component에 정사영시키면서, 정사영된 input data들의 분산이 작은 주성분인 Smallest Principal Component의 영향을 더 줄여준다. 각 주성분들은 모두 여러 변수의 선형결합으로 이뤄져 있으므로 한 축이 0이 된다해도 제거되는 변수는 없음을 알 수 있다. 그렇기에 릿지회귀에서는 effective degrees of freedom을 정의하여 연속된 버전으로 어느정도의 파라미터를 사용했는지를 파악한다. effective degrees of freedom는 다음과 같이 정의한다.
가 0일 때 df()는 로 모든 변수를 사용함을 알 수 있고, 가 매우 큰 값을 가지면 0으로 수렴하여 어떠한 변수도 사용하지 않음을 알 수 있다. 일반적으로 최적의 를 찾기 위해서는 cross-validation를 이용해 가장 작은 test error를 갖는 를 찾는다.