배깅(Bootstrapping aggregating)이란?
먼저, 부트스트래핑은 현재 주어진 개의 데이터셋을 표본샘플이 아닌, 모집단 그 자체로 가정하고 중복을 허용하여 개의 데이터를 뽑아와 여러 표본을 생성하는 방법이다. 일반적으로 통계학에서는 통계량의 표준오차나 신뢰구간을 찾기 위해서 사용된다.
배깅은 주어진 데이터셋을 부트스트래핑을 활용해 여러개의 학습데이터를 만들어 각각의 모델들에 학습을 진행한 후 예측값들을 모아 보팅과 같은 방식으로 최종 예측값을 산출한다.
배깅 모델은 일반적으로 개별 모델들에 비해 분산이 줄어드는 효과가 있으므로, 개별 모델이 편향이 작고 분산이 클 경우(과적합이 의심되는 모델)에 유용하다.
결정트리를 기반으로 배깅을 적용한 모델을 랜덤포레스트(random forest)라고 한다.