- 데이터 변수 구간화(Bining)

연속형 변수를 다룰 때 구간을 나눠서 새로운 변수를 만든다. 이런 과정을 통해서 해당 변수의 스케일이나 분포가 모델에 미치는 영향을 줄일 수 있다.

키라는 변수가 있다고 가정하자 150~159를 150대로, 160~169를 160대로 설정하는 방식을 통해 스케일링이나 분포의 영향을 줄일 수 있다.

•

구간 설정 : 연속형 변수를 나눌 구간 설정하여, 미리 개수나 도메인 지식으로 정할 수 있음

•

구간 경계 설정 : 설정한 구간마다 경계 필요

•

이산형 변수로 변환 후 사용할 수 있고, 데이터 마이닝에도 사용할 수 있다.

연속형 분수를 여러 구간으로 나눔

•

구간별 평균값으로 평활화할 수 있음

•

중앙값으로 평활화 할 수 있음

•

경계값으로 평활화 할 수 있음

•

도메인 별로 평활화 방법이 달라질 수 있음

어떤 피쳐를 사용해야할지 모르겠다면, WOE와 IV 방법론을 사용해보자

WOE, IV 변수의 정보량과 예측력을 평가하는데 사용하는 지표이다.

WOE 의 컨셉은 종속변수 대비 독립 변수가 예측력이 얼마나 강한지 설명하는 지표

*상관관계와 비슷한 개념

•

WOE 양수 : 구간 값들이 양성클래스의 발생이 더 관련이 있음

•

WOE 음수 : 구간 값들이 음성 클래스의 발생에 더 관련이 있음

•

WOE 값이 큰 양수 또는 큰 음수 : 해당 구간 값이 예측값과 강한 관계

•

WOE 0인 값: 클래스와 큰 관계가 없다.

IV(Information Value)변수의 예측력을 평가하는 데 사용하는 통계적 수치

•

IV <0.02: 유용하지 않은 변수

•

0.02 <=IV <0.1: 약한 예측력 

•

0.1 <=IV <0.3: 중간 예측력

•

0.3 <=IV <0.5: 강한 예측력

•

IV >= 0.5, 1.0 이상: 매우 강한 예측력 

•

어떤 변수가 타겟과 더 강한 관계를 가지고 있는지 확인하는 것

•

높은 수치라고해서 다 좋은 게 아니라 과적합의 원인이 될 수 있다. 이런 부분은 모델링을 통해서도 같이 크로스 체크 진행해야 한다.