History
home
BDA 연혁
home

- 베르누이시행, 이항분포

통계적 추론(statistical inference)

통계적 추론은 관측된 데이터를 기반으로 모집단(population)의 특성을 추론하는 과정이다. 이는 표본(sample) 데이터를 사용하여 모집단에 대한 결론을 내리거나 예측하는 것을 포함하는데, 크게 점추정(point estimation), 구간추정(interval estimation), 가설검정(hypothesis testing)으로 나눌 수 있다.

모수(Parameters)와 통계량(Statistics)

모수(Parameters): 모집단의 특성을 나타내는 수치이다. 예를 들어, 모집단의 평균(μ), 분산(σ²) 등이 있다. 이러한 모수는 일반적으로 알려져 있지 않으며, 추론을 통해 추정해야 한다.
통계량(Statistics): 표본 데이터로부터 계산된 값으로, 모수를 추정하기 위해 사용된다. 예를 들어, 표본 평균(x̄), 표본 분산(s²) 등이 있다. 통계량은 표본에 따라 그 값이 달라지며, 표본의 분포를 통해 모수에 대한 정보를 제공한다.

점추정(Point Estimation)

점추정은 모집단의 모수를 하나의 수치로 추정하는 과정이다. 여기서 중요한 개념이 추정량(estimator)과 추정값(estimate)입니다.
추정량(Estimator): 모수를 추정하기 위해 사용되는 통계량의 규칙이나 방법을 의미한다. 예를 들어, 모평균을 추정하기 위한 추정량으로 표본 평균(x̄)을 사용할 수 있다.
추정값(Estimate): 특정 표본 데이터에 대해 계산된 추정량의 실제 값이다. 예를 들어, 특정 표본 데이터에 대한 표본 평균 값이 20이라면, 이는 모평균의 추정값이 된다.

추정량의 성질

바람직한 추정량을 평가하는 주요 기준에는 불편성(unbiasedness), 유효성(efficiency), 일치성(consistency) 등이 있다.
불편성(Unbiasedness): 추정량의 기대값이 추정하려는 모수의 실제 값과 같을 때, 그 추정량을 불편추정량이라고 한다. 즉, 추정량이 모수를 체계적으로 과대 추정하거나 과소 추정하지 않을 때 불편성을 가진다고 할 수 있다.
유효성(Efficiency): 두 불편추정량 중에서 분산이 작은 추정량을 더 유효하다고 한다. 즉, 동일한 조건에서 더 정밀한(분산이 작은) 추정을 제공하는 추정량이 더 유효하다.
일치성(Consistency): 표본 크기가 무한대로 증가함에 따라 추정량이 추정하려는 모수의 실제 값에 확률적으로 수렴할 때, 그 추정량을 일치추정량이라고 한다. 즉, 표본 크기가 커질수록 추정값이 실제 모수값에 가까워진다는 의미이다.

구간 추정(Interval estimation)

구간 추정은 모수(모집단의 특성을 나타내는 값)를 추정할 때, 하나의 수치로 추정하는 점추정과 달리, 추정값이 특정 구간 내에 있을 것이라는 추정을 하는 방식이다. 이 구간을 신뢰구간(confidence interval)이라고 하며, 신뢰구간을 통해 추정의 불확실성을 양적으로 표현할 수 있다.

신뢰구간

신뢰구간은 주로 다음과 같은 형태로 표현된다: 추정치±신뢰구간의 폭
여기서,
추정치는 모수를 추정하기 위한 표본통계량(표본 데이터로부터 계산된 값)이다.
신뢰구간의 폭은 추정치의 불확실성을 나타내는 값으로, 보통 표준오차에 신뢰수준에 해당하는 z 값(정규분포에서의 z-점수) 또는 t 값(t-분포에서의 t-점수)을 곱한 값이다.

신뢰수준

신뢰구간을 구할 때 중요한 개념 중 하나는 신뢰수준(confidence level)이다. 신뢰수준은 구한 신뢰구간이 모수를 포함할 확률을 의미하며, 일반적으로 95%나 99% 등의 값으로 설정됩니다. 예를 들어, 신뢰수준이 95%인 신뢰구간은 이론적으로 동일한 방법으로 무수히 많은 표본을 추출하여 구간을 계산했을 때, 그 중 약 95%의 구간이 실제 모수를 포함하고 있다는 것을 의미합니다.