ANOVA
ANOVA(Analysis of Variance, 분산분석)는 세 개 이상의 집단 간에 평균이 서로 다른지를 검정하는 통계적 방법이다. 주로 실험 설계에서 여러 처리(또는 조건)의 효과를 비교할 때 사용된다. ANOVA는 데이터가 정규 분포를 따르고, 각 집단의 분산이 동일하며(등분산성), 관측치가 독립적이라는 가정 하에 사용된다.
ANOVA의 기본 아이디어는 전체 데이터의 변동성(variability)을 집단 간 변동성(between-group variability)과 집단 내 변동성(within-group variability)으로 나누어 비교하는 것이다. 집단 간 변동성은 집단 평균 간의 차이에서 기인하며, 집단 내 변동성은 각 집단 내에서의 개별 값들이 해당 집단 평균으로부터 얼마나 떨어져 있는지를 나타낸다.
ANOVA의 주요 용어
•
F-통계량(F-statistic): 집단 간 변동성과 집단 내 변동성의 비율을 나타내는 값으로, F분포를 따른다. F-통계량이 크면 클수록 집단 간의 평균 차이가 유의미하다는 것을 의미한다.
•
유의확률(p-value): 계산된 F-통계량이나 그보다 더 극단적인 값을 얻을 확률이다. 일반적으로 p-value가 0.05 이하일 때 집단 간 평균의 차이가 통계적으로 유의하다고 판단한다.
ANOVA의 종류
•
일원 배치 ANOVA(One-way ANOVA): 종속변인(dependent)은 1개이며, 독립변인(independent)의 집단도 1개인 경우이다.
•
이원 배치 ANOVA(Two-way ANOVA): 독립변인의 수가 두 개 이상일 때 집단 간 차이가 유의한지를 검증하는 데 사용한다.
•
다원변량 ANOVA(MANOVA): 두개 이상의 종속변인이 서로 관계된 상황에 적용시킨 것이다. 둘 이상의 집단간 차이를 검증 할 수 있다. 일반적으로 분석의 복잡성으로 인해서 삼원분산분석이 다루어진다.
•
공분산분석(ANCOVA): 다원변량ANOVA에서 특정한 독립변인에 초점을 맞추고 다른 독립변인은 통제변수로 하여 분석하는 방법이다. 특정한 사항을 제한을 하여 분산분석을 하는 것이다.