History
home
BDA 연혁
home

- 통계 기반 분석 (3, 교차분석 등)

교차분석 (카이제곱 검정)

교차분석은 두 범주형 변수 간의 관계를 분석하는 통계적 방법이다. 교차분석을 통해 두 변수 사이에 통계적으로 유의미한 관계가 있는지 확인할 수 있다. 주로 두개의 변수가 질적인 명목척도일 때, 두 변수 각각의 범주에 따라 데이터를 분류하여 표(교차표) 형태로 정리한 다음, 관찰된 빈도와 기대된 빈도 사이의 차이를 검정한다.

교차분석의 주요 개념

1.
교차표(Cross-tabulation Table): 두 범주형 변수의 분포를 나타내는 표로, 한 변수의 범주를 행으로, 다른 변수의 범주를 열로 배열하여 각 셀에 해당하는 빈도수를 기록
2.
기대빈도(Expected Frequency): 두 변수가 서로 독립일 경우 각 셀에 기대되는 빈도수로, 전체 표본 크기와 각 행과 열의 합계를 바탕으로 계산된다.
3.
카이제곱 검정(Chi-square Test): 관찰된 빈도와 기대된 빈도 사이의 차이를 검정하기 위해 사용되는 통계적 방법이다. 카이제곱 통계량(χ2\chi^2)을 계산하여 두 변수 간의 독립성을 검정

카이제곱 통계량의 계산

카이제곱 통계량은 다음과 같다
χ2=(OE)2E\chi^2 = \sum \frac{(O-E)^2}{E}
OO는 교차 분석 후 교차표에 나타난 관찰된 빈도, EE는 두 변수간의 통계적 연관성이 없다는 가정하에 기대되는 빈도이다. 이 통계량을 사용하여, 계산된 카이제곱 값이 카이제곱 분포표에서 주어진 자유도와 유의수준에 대응하는 임계값을 초과하는지 확인한다. 초과한다면, 두 변수 간에는 통계적으로 유의미한 관계가 있다고 결론지을 수 있다.

유의수준과 자유도

유의수준(α\alpha): 가설검정에서 사용되는 임계값으로, 일반적으로 0.05 또는 0.01을 사용합니다. 이 값 이하일 경우 귀무가설을 기각한다.
자유도(Degrees of Freedom, df): 카이제곱 분포를 결정할 때 필요한 값으로, 일반적으로 (행의수−1)×(열의수−1)로 구한다.

가설검정

귀무가설(H0H_0): 두 변수 사이에는 관련이 없다. (독립적이다)
대립가설(H1H_1): 두 변수 사이에는 관련이 있다. (종속적이다)