/*******************************************************************************************************************
-- Title : [Stats] 모수 추정-1(추정과 가설검정)
-- Reference : acorn, googling
-- Key word : z score 유의수준 유의 수준 t 통계량 t statistic 모평균 가설 검정 가설검정 귀무가설 귀무 가설
대립가설 대립 가설 신뢰도 z 통계량 p-value p value 검정통계량 검정 통계량 정규분포 정규 분포
가우스 중심극한정리 중심 극한 정리
*******************************************************************************************************************/
■ 단일 모집단에서의 추정(estimation)
ㅁ 신뢰구간 추정
ㅇ z 통계량 이용한 신뢰구간 추정 - σ Known(모표준편차을 아는 경우)
* 점추정(point estimation)
* 100(1-α)% Confidence Interval to Estimate μ: σ known
* 유한조정계수
* Sample Size가 작은 경우
- 여태까지 주로 n >= 30
- n <30 이어도 중심극한 정리에 의해 z formula 적용
- sample size가 클 때 또는 작아도 모집단이 정규분포
* cf. α는 유의수준(≒오류), 1-α는 신뢰수준, 즉 "95% 신뢰구간은 확률이 낮은 5%의 표본을 포기
ㅇ t 통계량 이용한 신뢰구간 추정 - σ Unknown(모표준편차을 모르는 경우)
* 모집단이 정규분포인데 표준편차(sd)를 모르는 경우 t 분포 적용
- 표본크기에 따라 분포가 다름
- t statistic의 assumption: 모집단이 정규분포
- t Distribution의 특징: Robust
* t 통계량을 이용한 모집단 평균 추정에서의 신뢰추산
ㅇ 모비율 추정
* 지지율, 시청률, 실업률 따위와 같이 모집단에서 어떤 사건에 대한 비율이 모비율
ㅇ 모분산 추정
* Sample Variance
* 모분산과 표본분산의 관계
ㅇ 표본크기의 산정
* μ(모평균) 추정 시의 표본크기
- μ 추정 시: 표본크기는 z formula 이용
- p 추정 시의 표본크기
■ 단일 모집단에서의 가설검정
ㅁ 가설 검정이란?
ㅇ 모집단의 특성에 대한 통계적 가설을 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적 추론
ㅇ 통계적인 유의성을 검정(=유의성 검정 = significance Test)
ㅇ Hypothesis Testing(가설검정)
ㅁ 귀무가설
ㅇ 모집단과 Sample의 평균은 같다.
ㅇ H0 : μ(샘플평균) = μ0(모평균 or 목표값)
ㅁ 대립가설
ㅇ 모집단과 Sample의 평균은 다르다.
ㅇ Ha : μ ≠ μ0 양측검정
Ha : μ < μ0 단측검정
Ha : μ > μ0 단측검정
ㅁ 오류의 종류
ㅇ 제 1종 오류(α error)
- 귀무가설 H0가 옳은데도 불구하고 H0를 기각하게 되는 오류
ㅇ 제 2종 오류(β error)
- 귀무가설 H0가 옳지 않은데도 H0를 채택하는 오류
ㅁ 유의수준(α) 결정
ㅇ 유의수준(α)
* 표본 평균이 모평균과 같은데, 표본평균이 모평균과 다르다고 선택하는 오류를 범할 허용한계
ㅇ 신뢰도(1-α)
* 검정하려는 귀무가설이 참인 경우, 이를 옳다고 판단하는 확률
ㅇ 사설
* 유의수준으로 0.05나 0.01이 자주 사용
* 이는 컴퓨터가 없던 시절, 몇 개의 임계값에 대한 계산치만 만들었던 시절의 유산
* 아직도 일반적인 실험에서는 유의수준 5%와 신뢰도 95%, 유의수준 1%와 신뢰도 99%를 많이 채택
ㅁ z 통계량 이용한 모평균의 가설검정 - σ Known(모표준편차을 아는 경우)
ㅇ 단일 평균에 대한 z Test
ㅇ 유한모집단의 평균에 대한 검정
ㅇ p-value를 이용한 가설검정
- p-value(관측된 유의수준, 유의확률)
- "α(유의수준)가 p보다 커야만 H0를 reject 가능"
ㅇ Critical Value Method를 이용한 가설검정
- Rejecting H0 using p-value
ㅁ t 통계량 이용한 신뢰구간 추정 - σ Unknown(모표준편차을 모르는 경우)
ㅇ z Test of a Population Proportion
ㅇ Critical Value Method를 이용한 가설검정
- Rejecting H0 using p-value
ㅁ 비율에 관한 가설검정
ㅇ Using p-value
ㅇ Using the critical value method
ㅁ 분산에 대한 가설검정
ㅇ Table χ² vs. Observed χ²
ㅇ H0 can also be tested by the critical value method
ㅇ 관측된 χ²값 대신 critical χ² value for α를 적용하여 s² 계산
■ 가설검정의 결과 해석
ㅁ 검정통계량과 기각역
ㅇ 검정통계량(Test Statistics)
- 관찰된 표본으로부터 구하는 통계량
- 분포가 가설에서 주어지는 모수에 의존
- 검정시 가설의 진위를 판단하는 수단
ㅇ 기각역(critical region)
- 검정통계량의 분포에서 유의수준 α의 크기에 해당하는 영역
- 계산된 검정통계량의 유의성을 판단하는 기준
ㅁ 정규분포
ㅇ 도수분포곡선이 평균값을 중심으로 하여 죄우 대칭인 종 모양을 이루는 연속 확률 분포
ㅇ 가우스 함수로 표현
ㅁ 중심극한정리(Central Limit Theorem)
ㅇ 표본의 크기가 충분히 크다면(n>30) 표본평균들의 분포는 정규분포를 따름
ㅁ 표준정규분포
ㅇ 평균이 0이고 표준편차가 1인 정규분포
ㅁ 신뢰도와 유의수준
ㅇ 귀무가설의 영역에 해당하는 함수의 넓이가 신뢰도
ㅇ 대립가설의 영역에 해당하는 함수의 넓이가 유의수준
ㅁ 표본의 z-score
ㅇ 표본평균이 Z-Score(혹은 검정통계량)가 1.96 이상이거나 -1.96 이하이면 대립가설 채택
ㅁ p-value와 검정통계량의 의미
ㅇ p-value(유의확률) : 검정통계량(표본평균의 z-score)보다 큰 값이 나올 확률
ㅁ p-value와 검정통계량의 판단
ㅇ 검정통계량(표본평균의 z-score)이 임계값 밖에 있으면 대립가설 채택
ㅇ p-value가 유의수준보다 작으면 대립가설 채택
ㅇ 검정통계량(표본평균의 z-score)이 임계값인 1.96보다 크거나 -1.96보다 작으면 대립가설 채택
ㅇ p-value가 유의수준인 0.05보다 작으면 대립가설 채택
ㅁ 가설검증 절차