History
home
BDA 연혁
home

- 이상치란? ( 이상치 처리 방법 및 가중치 변수 만들기 )

이상치(Outlier)란 무엇인가?

이상치는 나머지 데이터와 현저하게 다른 값을 가지는 데이터 포인트를 의미한다. 이상치는 데이터 분석, 통계 모델링, 머신러닝 등 다양한 분야에서 중요한 개념으로, 데이터 세트의 전반적인 패턴에서 벗어나는 드문 경우나 측정 오류로 인해 발생할 수 있다.

이상치의 주요 특징

극단적인 값: 이상치는 데이터 세트 내에서 극단적인 최대값 또는 최소값으로 나타날 수 있다.
데이터의 왜곡: 이상치는 평균, 중앙값, 표준편차와 같은 통계적 측정치를 왜곡시킬 수 있어, 데이터 분석 결과를 오도할 수 있다.
원인 다양성: 이상치는 다양한 원인에 의해 발생할 수 있으며, 이에는 측정 오류, 실험 오류, 데이터 처리 과정에서의 실수, 실제 변동성 등이 포함된다.
중요성: 이상치는 때로는 중요한 정보를 담고 있을 수 있으며, 예를 들어 부정 행위 감지, 결함 제품 감지, 금융에서의 급격한 시장 변동 등을 탐지하는 데 유용할 수 있다.

이상치 탐지 방법

이상치를 탐지하는 방법에는 여러 가지가 있으며, 그 중 일부는 다음과 같다:
통계적 방법: 평균과 표준편차, IQR(Interquartile Range)을 사용한 방법 등이 있다.
시각화: 박스 플롯(Box Plot), 산점도(Scatter Plot) 등을 사용하여 데이터를 시각적으로 검사할 수 있다.
머신러닝 기반 방법: 클러스터링(예: k-means), 이상치 탐지 알고리즘(예: Isolation Forest, DBSCAN)을 사용할 수 있다.
이상치를 다룰 때는 데이터의 특성과 분석의 목적을 고려해야 하며, 이상치가 실제로 오류인지, 아니면 중요한 정보를 포함하고 있는지를 판단하는 과정이 필요하다.

1. 통계적 이상치 판단 방법

통계적 이상치 판단 방법은 데이터의 분포를 기반으로 이상치를 식별한다. 대표적인 방법으로는 Z-점수(Z-Score) 방법과 IQR(Interquartile Range) 방법이 있다.
Z-점수(Z-Score): 데이터 포인트의 값이 데이터 세트의 평균으로부터 얼마나 멀리 떨어져 있는지를 측정한다. Z-점수가 높은 데이터 포인트(예: 절대값이 3 이상)는 이상치로 간주될 수 있다.
IQR(Interquartile Range) 방법: IQR은 제3사분위수(Q3)와 제1사분위수(Q1)의 차이다. Q1 - 1.5 * IQR보다 작거나 Q3 + 1.5 * IQR보다 큰 데이터 포인트는 이상치로 간주된다.
장점: 간단하고 직관적이며, 구현하기 쉽다. 단점: 데이터가 정규 분포를 따르지 않거나, 다변량 데이터의 경우에는 적용하기 어려울 수 있다.

2. Isolation Forest 이상치 판단 방법

Isolation Forest는 특히 다차원 데이터셋에서 이상치를 효율적으로 탐지할 수 있는 알고리즘이다. 이 방법은 데이터 포인트를 '격리'하는 데 필요한 분할 수를 이용하여 이상치를 식별한다. 이상치는 일반적으로 정상 데이터 포인트보다 더 적은 분할로 격리된다.
장점: 다차원 데이터에서도 잘 작동하며, 병렬 처리가 가능하여 대규모 데이터셋에 적용하기 적합하다. 단점: 알고리즘의 매개변수(예: 트리의 수, 샘플의 크기)를 적절히 설정해야 하며, 매개변수에 따라 성능이 달라질 수 있다.
수업 자료 예시