1. 데이터 구간화(Binning)
연속형 변수를 다룰 때 구간을 나눠서 새로운 변수를 만든다. 이런 과정을 통해서 해당 변수의 스케일이나 분포가 모델에 미치는 영향을 줄일 수 있다.
키라는 변수가 있다고 가정하자
150~159를 150대로, 160~169를 160대로 설정하는 방식을 통해 스케일링이나 분포의 영향을 줄일 수 있다.
변수 구간화의 개념
변수 구간화의 기준
2. Feature_selection 의 영역
어떤 피쳐를 사용해야할지 모르겠다면, WOE와 IV 방법론을 사용해보자
WOE, IV 변수의 정보량과 예측력을 평가하는데 사용하는 지표이다.