History
home
BDA 연혁
home

- 데이터 변수 구간화(Binning)

1. 데이터 구간화(Binning)

연속형 변수를 다룰 때 구간을 나눠서 새로운 변수를 만든다. 이런 과정을 통해서 해당 변수의 스케일이나 분포가 모델에 미치는 영향을 줄일 수 있다.
라는 변수가 있다고 가정하자 150~159를 150대로, 160~169를 160대로 설정하는 방식을 통해 스케일링이나 분포의 영향을 줄일 수 있다.

변수 구간화의 개념

변수 구간화의 기준

2. Feature_selection 의 영역

어떤 피쳐를 사용해야할지 모르겠다면, WOE와 IV 방법론을 사용해보자
WOE, IV 변수의 정보량과 예측력을 평가하는데 사용하는 지표이다.

WOE

IV