결정트리란(Decision tree)?
결정트리는 지도학습 알고리즘의 일종으로 독립변수와 종속변수의 관계를 트리 자료구조를 이용하여 모델링을 진행한다. 결정트리는 분류문제와 회귀문제에 모두 적용할 수 있다.
Q1. 트리 자료 구조에 대해서 알아보자.
위 그림은 iris 데이터셋을 이용하여 학습한 결정트리 모델을 시각화 한 것이다. 매 분기마다 특정 독립변수를 사용하여 데이터셋을 2개로 분류하는 것을 볼 수있다. 위 그림의 예로는 첫 분기에서 petal length(cm)를 2.6을 기준으로 데이터셋을 분할하였다. 노드의 적힌 samples는 샘플의 수, value는 클래스 별 샘플 수, class는 현 노드에서 가장 다수의 샘플을 보유한 클래스의 이름임을 유추해볼 수 있다. 그렇다면 gini는 무엇을 의미할까? 바로 분기를 나누는 기준이다.
Q2. 매 분기마다 해당 분기에서 클래스를 가장 잘 분류할 수 있는 기준을 선정한다면, 즉 매 단계에서 최선의 선택을 한다는 것이 결과적으로도 최선의 선택이라고 할 수 있을까?