History
home
BDA 연혁
home

- 통계 기반 분석 (1, T-test 등)

T-test의 종류

두 모집단의 데이터의 수가 충분히 크거나 정규분포를 따를 때, 두 모평균을 비교하는 검정방법들은 다음과 같다.
graph TD
  A(두 집단에 대한 데이터) -- 두 집단이 독립적으로 관측--> B[모분산]
  A(두 집단에 대한 데이터) -- 두 집단이 쌍을 이루어 관측--> C[D=X-Y]
	B[모분산] -- 알려진 경우 --> D[Z-test]
  B[모분산] -- 알려지지 않은 경우 --> E[분산 동일성 검정]
	C[D=X-Y] --> F[한 집단에 대한 모평균 검정]
  E[분산 동일성 검정] -- 등분산인 경우 --> G[합동분산 이용 T-test]
  E[분산 동일성 검정] -- 등분산이 아닌 경우 --> H[자유도 근사 T-test]
Mermaid
복사

독립인 두 모분산이 알려져 있는 정규 모집단

서로 독립이고 샘플의 수가 각각 n1,n2n_1,n_2인 두 표본 X,YX,Y가 각각 XN(μ1,σ12), YN(μ2,σ22)X \sim \mathcal{N}(\mu_1, \sigma^2_1), \ Y \sim \mathcal{N}(\mu_2, \sigma^2_2)를 따르면, 두 표본평균의 차 XˉYˉN(μ1μ2,σ12n1+σ22n2)\bar{X} - \bar{Y} \sim \mathcal{N}(\mu_1-\mu_2, \frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2})를 따른다.
두 모평균의 차에 대한 신뢰구간
Z=XˉYˉ(μ1μ2)σ12n1+σ22n2N(0,1)Z = \frac{\bar{X} - \bar{Y} - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}} \sim \mathcal{N}(0,1)
두 모평균의 차 μ1μ2\mu_1 - \mu_2에 대한 100(1α)100(1-\alpha)% 신뢰구간은 다음과 같다.
[(XˉYˉ)zα/2σ12n1+σ22n2,(XˉYˉ)+zα/2σ12n1+σ22n2]\left[ (\bar{X} - \bar{Y}) - z_{\alpha/2}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}, (\bar{X} - \bar{Y}) + z_{\alpha/2}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}} \right]
검정통계량
귀무가설 H0:μ1μ2=δ0H_0: \mu_1-\mu_2 = \delta_0이 참일 때,
Z0=XˉYˉδ0σ12n1+σ22n2N(0,1)Z_0 = \frac{\bar{X} - \bar{Y} - \delta_0}{\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}} \sim \mathcal{N}(0,1)
우측검정(H1:μ1μ2>δ0)H_1 : \mu_1 - \mu_2 > \delta_0)에서의 기각역: z0>zαz_0 > z_{\alpha}
좌측검정(H1:μ1μ2<δ0)H_1 : \mu_1 - \mu_2 < \delta_0)에서의 기각역: z0<zαz_0 < -z_{\alpha}
양측검정(H1:μ1μ2δ0)H_1 : \mu_1 - \mu_2 \neq \delta_0)에서의 기각역: z0>zα/2|z_0| > z_{\alpha/2}

합동 분산 T-test

서로 독립이고 샘플의 수가 각각 n1,n2n_1,n_2인 두 표본 X,YX,Y가 각각 XN(μ1,σ12), YN(μ2,σ22)X \sim \mathcal{N}(\mu_1, \sigma^2_1), \ Y \sim \mathcal{N}(\mu_2, \sigma^2_2)를 따르고, 분산이 같을 경우 공통 모분산의 불편추정량인 SpS_p를 사용한다.
Sp2=(n11)S12+(n21)S22n1+n22T=XˉYˉ(μ1μ2)Sp1n1+1n2t(n1+n22)\begin{align*} S_p^2 &= \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2} \\ T &= \frac{\bar{X} - \bar{Y} - (\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1+n_2-2) \end{align*}
두 모평균의 차에 대한 신뢰구간
두 모평균의 차 μ1μ2\mu_1 - \mu_2에 대한 100(1α)100(1-\alpha)% 신뢰구간은 다음과 같다.
(XˉYˉ)±tα/2(n1+n22)Sp1n1+12n2(\bar{X} - \bar{Y}) \pm t_{\alpha/2}(n_1+n_2-2)S_p\sqrt{\frac{1}{n_1}+\frac{1_2}{n_2}}
검정통계량
귀무가설 H0:μ1μ2=δ0H_0: \mu_1-\mu_2 = \delta_0이 참일 때,
T0=XˉYˉδ0Sp1n1+1n2t(n1+n22)T_0 = \frac{\bar{X} - \bar{Y} - \delta_0}{S_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1+n_2-2)
우측검정(H1:μ1μ2>δ0)H_1 : \mu_1 - \mu_2 > \delta_0)에서의 기각역: t0>tα(n1+n22)t_0 > t_{\alpha}(n_1+n_2-2)
좌측검정(H1:μ1μ2<δ0)H_1 : \mu_1 - \mu_2 < \delta_0)에서의 기각역: t0<tα(n1+n22)t_0 < -t_{\alpha}(n_1+n_2-2)
양측검정(H1:μ1μ2δ0)H_1 : \mu_1 - \mu_2 \neq \delta_0)에서의 기각역: t0>tα/2(n1+n22)|t_0| > t_{\alpha/2}(n_1+n_2-2)

자유도 근사 T-test

서로 독립이고 샘플의 수가 각각 n1,n2n_1,n_2인 두 표본 X,YX,Y가 각각 XN(μ1,σ12), YN(μ2,σ22)X \sim \mathcal{N}(\mu_1, \sigma^2_1), \ Y \sim \mathcal{N}(\mu_2, \sigma^2_2)를 따를 경우 아래와 같이 자유도 근사를 통해 자유도 vv를 구한다.
v=(S12/n1+S22/n2)2(S12/n1)2/(n11)+(S22/n2)2/(n21)v = \frac{(S_1^2/n_1 + S_2^2/n_2)^2}{(S_1^2/n_1)^2/(n_1-1) +(S_2^2/n_2)^2/(n_2-1)}
다음 통계량 TT는 근사적으로 자유도가 vv인 t-분포를 따른다.
T=XˉYˉ(μ1μ2)S12n1+S22n2T = \frac{\bar{X} - \bar{Y} - (\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}}
두 모평균의 차에 대한 신뢰구간
두 모평균의 차 μ1μ2\mu_1 - \mu_2에 대한 100(1α)100(1-\alpha)% 신뢰구간은 다음과 같다.
(XˉYˉ)±tα/2(v)S12n1+S22n2(\bar{X} - \bar{Y}) \pm t_{\alpha/2}(v)\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}
검정통계량
귀무가설 H0:μ1μ2=δ0H_0: \mu_1-\mu_2 = \delta_0이 참일 때, 다음 통계량은 근사적으로 자유도가 vv인 t-분포를 따른다.
T0=XˉYˉδ0S12n1+S22n2T_0 = \frac{\bar{X} - \bar{Y} - \delta_0}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}}
우측검정(H1:μ1μ2>δ0)H_1 : \mu_1 - \mu_2 > \delta_0)에서의 기각역: t0>tα(v)t_0 > t_{\alpha}(v)
좌측검정(H1:μ1μ2<δ0)H_1 : \mu_1 - \mu_2 < \delta_0)에서의 기각역: t0<tα(v)t_0 < -t_{\alpha}(v)
양측검정(H1:μ1μ2δ0)H_1 : \mu_1 - \mu_2 \neq \delta_0)에서의 기각역: t0>tα/2(v)|t_0| > t_{\alpha/2}(v)