History
home
BDA 연혁
home

- 결측치, 누락값 비교 ( 보간법, sklearn 패키지, imputer)

결측치(Missing Value)란?

결측치는 데이터셋 내에 값이 없는, 즉 누락된 데이터를 의미한다. 이는 조사 대상이 응답을 거부하거나, 데이터 수집 과정에서 오류가 발생하거나, 데이터를 잃어버리는 등 다양한 이유로 발생할 수 있다. 결측치는 숫자 데이터셋에서는 보통 NaN (Not a Number)이나 NULL로 표시되며, 범주형 데이터셋에서는 빈 문자열이나 특정 표시('?', 'NA' 등)로 나타날 수 있다.

결측치 처리가 중요한 이유

1.
데이터의 정확성과 품질 향상: 결측치를 적절히 처리함으로써 데이터의 정확성을 보장하고, 분석의 품질을 향상시킬 수 있다. 결측치를 무시하고 분석을 진행할 경우, 잘못된 결론이나 오류가 발생할 수 있다.
2.
모델 성능 개선: 대부분의 머신러닝 알고리즘은 결측치가 있는 데이터를 처리할 수 없다. 따라서, 결측치를 적절하게 처리하는 것은 모델의 성능을 최적화하는 데 중요하다. 결측치를 처리함으로써 보다 정확하고 신뢰할 수 있는 예측 모델을 구축할 수 있다.
3.
데이터의 완전성 확보: 결측치 처리를 통해 데이터의 완전성을 확보하고, 분석 가능한 데이터의 양을 최대화할 수 있다. 이는 특히 데이터가 부족한 상황에서 중요한 의미를 갖는다.
4.
의사 결정 지원: 결측치 처리를 통해 얻은 정확하고 완전한 데이터는 의사 결정 과정에서 더 나은 통찰력과 근거를 제공한다. 이는 비즈니스 전략 수립, 위험 관리, 고객 이해도 향상 등 다양한 영역에서 중요한 역할을 한다.

결측치 처리 방법

결측치 처리 방법은 데이터의 특성, 결측치가 발생한 원인, 그리고 분석의 목적에 따라 달라질 수 있다. 몇 가지 대표적인 결측치 처리 방법을 알아보고, 각 알고리즘들의 특징들을 살펴보자.
1. 삭제(Listwise Deletion): 결측치가 있는 행이나 열을 데이터셋에서 제거
장점: 가장 간단하고 쉬운 방법이다.
단점: 많은 데이터를 잃을 수 있으며, 남은 데이터가 편향될 위험이 있다.
적합한 상황: 결측치가 매우 적은 경우, 또는 결측치가 완전히 무작위로 발생한 경우.
2. 평균/중앙값/최빈값 대체: 결측치를 해당 열의 평균값, 중앙값, 또는 최빈값으로 대체
장점: 데이터를 유지할 수 있으며, 구현이 쉽다.
단점: 데이터의 분산을 줄이고, 실제 분포를 왜곡할 수 있다.
적합한 상황: 결측치가 무작위로 발생하고, 결측치의 비율이 낮은 경우. 연속형 변수에서는 평균 또는 중앙값, 범주형 변수에서는 최빈값 대체가 적합하다.
3. 선형 보간법(Linear Interpolation): 두 점 사이의 값을 추정하기 위해 직선을 사용하는 방법이다. 주어진 데이터 포인트들 사이에서 선형적인 관계를 가정하고, 결측치가 있는 지점을 직선의 방정식을 사용하여 채운다.
장점: 데이터 포인트들 사이의 관계가 선형적이라는 간단한 가정 하에 적용가능하다.
단점: 결측치 양쪽의 데이터 포인트에만 의존하기 때문에, 국소적인 정보만을 활용하며, 전체 데이터의 패턴을 고려하지 않는다.
적합한 상황: 데이터 포인트들 사이의 관계가 선형적으로 가정될 수 있는 경우.
3. Spline 보간법
Spline 보간법은 데이터 포인트 사이를 곡선으로 연결하여 결측치를 추정하는 방법이다. 고차원의 다항식을 사용하여 데이터의 미세한 변동까지 고려할 수 있으며, 특히 데이터가 비선형적인 패턴을 보일 때 유용하다.
장점: 데이터의 곡선적인 패턴을 잘 반영할 수 있으며, 매끄러운 곡선을 생성한다.
단점: 과적합(Overfitting)을 일으킬 수 있으며, 파라미터 설정이 중요하다.
적합한 상황: 연속적이고 곡선적인 패턴을 보이는 데이터, 특히 고차원 다항식으로 패턴을 표현할 수 있는 복잡한 데이터셋에서 적합하다.
5. 시계열 보간법(Time Series Interpolation)
시계열 보간법은 시간의 흐름에 따른 데이터의 경향성을 고려하여 결측치를 추정한다. 선형 보간, 다항 보간, 시계열 분석 기법(예: ARIMA)을 사용한 보간 등 다양한 방법이 존재한다.
장점: 시간의 흐름을 반영하여 결측치를 추정할 수 있으며, 시계열 데이터의 연속성을 유지할 수 있다.
단점: 시간 패턴이 복잡하거나, 장기간 결측이 발생한 경우 정확도가 떨어질 수 있다.
적합한 상황: 시간에 따른 경향성이나 계절성이 있는 데이터, 예를 들어 주식 가격, 기후 데이터 등 시계열 데이터 분석에 적합하다.
수업 자료 예시