반응형

/*******************************************************************************************************************
-- Title : [Stats] 모수 추정-1(추정과 가설검정)
-- Reference : acorn, googling
-- Key word : z score 유의수준 유의 수준 t 통계량 t statistic 모평균 가설 검정 가설검정 귀무가설 귀무 가설
                  대립가설 대립 가설 신뢰도 z 통계량 p-value p value 검정통계량 검정 통계량 정규분포 정규 분포
                  가우스 중심극한정리 중심 극한 정리 
*******************************************************************************************************************/

■ 단일 모집단에서의 추정(estimation)

    ㅁ 신뢰구간 추정
        ㅇ z 통계량 이용한 신뢰구간 추정 - σ Known(모표준편차을 아는 경우)
            * 점추정(point estimation)
            * 100(1-α)% Confidence Interval to Estimate μ: σ known
            * 유한조정계수
            * Sample Size가 작은 경우
                - 여태까지 주로 n >= 30
                - n <30 이어도 중심극한 정리에 의해 z formula 적용
                - sample size가 클 때 또는 작아도 모집단이 정규분포

            * cf. α는 유의수준(≒오류), 1-α는 신뢰수준, 즉 "95% 신뢰구간은 확률이 낮은 5%의 표본을 포기

        ㅇ t 통계량 이용한 신뢰구간 추정 - σ Unknown(모표준편차을 모르는 경우)
            * 모집단이 정규분포인데 표준편차(sd)를 모르는 경우 t 분포 적용
                - 표본크기에 따라 분포가 다름
                - t statistic의 assumption: 모집단이 정규분포
                - t Distribution의 특징: Robust
            * t 통계량을 이용한 모집단 평균 추정에서의 신뢰추산

        ㅇ 모비율 추정
            * 지지율, 시청률, 실업률 따위와 같이 모집단에서 어떤 사건에 대한 비율이 모비율

        ㅇ 모분산 추정
            * Sample Variance
            * 모분산과 표본분산의 관계

        ㅇ 표본크기의 산정
            * μ(모평균) 추정 시의 표본크기
                - μ 추정 시: 표본크기는 z formula 이용
                - p 추정 시의 표본크기


■ 단일 모집단에서의 가설검정
    ㅁ 가설 검정이란?
        ㅇ 모집단의 특성에 대한 통계적 가설을 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적 추론
        ㅇ 통계적인 유의성을 검정(=유의성 검정 = significance Test)
        ㅇ Hypothesis Testing(가설검정)
       
    ㅁ 귀무가설
        ㅇ 모집단과 Sample의 평균은 같다.
        ㅇ H0 : μ(샘플평균) = μ0(모평균 or 목표값)

    ㅁ 대립가설
        ㅇ 모집단과 Sample의 평균은 다르다.
        ㅇ Ha : μ ≠ μ0    양측검정
            Ha : μ < μ0    단측검정
            Ha : μ > μ0    단측검정

    ㅁ 오류의 종류
        ㅇ 제 1종 오류(α error)
            - 귀무가설 H0가 옳은데도 불구하고 H0를 기각하게 되는 오류
        ㅇ 제 2종 오류(β error)
            - 귀무가설 H0가 옳지 않은데도 H0를 채택하는 오류
          

    ㅁ 유의수준(α) 결정
        ㅇ 유의수준(α) 
            * 표본 평균이 모평균과 같은데, 표본평균이 모평균과 다르다고 선택하는 오류를 범할 허용한계
    
        ㅇ 신뢰도(1-α) 
            * 검정하려는 귀무가설이 참인 경우, 이를 옳다고 판단하는 확률

        ㅇ 사설
            * 유의수준으로 0.05나 0.01이 자주 사용
            * 이는 컴퓨터가 없던 시절, 몇 개의 임계값에 대한 계산치만 만들었던 시절의 유산
            * 아직도 일반적인 실험에서는 유의수준 5%와 신뢰도 95%, 유의수준 1%와 신뢰도 99%를 많이 채택

    ㅁ z 통계량 이용한 모평균의 가설검정 - σ Known(모표준편차을 아는 경우)
        ㅇ 단일 평균에 대한 z Test
        ㅇ 유한모집단의 평균에 대한 검정
        ㅇ p-value를 이용한 가설검정
            - p-value(관측된 유의수준, 유의확률)
            - "α(유의수준)가 p보다 커야만 H0를 reject 가능"
        ㅇ Critical Value Method를 이용한 가설검정
            - Rejecting H0 using p-value

    ㅁ  t 통계량 이용한 신뢰구간 추정 - σ Unknown(모표준편차을 모르는 경우)
        ㅇ z Test of a Population Proportion
        ㅇ Critical Value Method를 이용한 가설검정
            - Rejecting H0 using p-value

    ㅁ 비율에 관한 가설검정
        ㅇ Using p-value
        ㅇ Using the critical value method
    
    ㅁ 분산에 대한 가설검정
        ㅇ Table χ² vs. Observed χ²
        ㅇ H0 can also be tested by the critical value method
        ㅇ 관측된 χ²값 대신 critical χ² value for α를 적용하여 s² 계산


■ 가설검정의 결과 해석
    ㅁ 검정통계량과 기각역
        ㅇ 검정통계량(Test Statistics)
            - 관찰된 표본으로부터 구하는 통계량
            - 분포가 가설에서 주어지는 모수에 의
            - 검정시 가설의 진위를 판단하는 수단
        ㅇ 기각역(critical region)
            - 검정통계량의 분포에서 유의수준 α의 크기에 해당하는 영역
            - 계산된 검정통계량의 유의성을 판단하는 기준

    ㅁ 정규분포
        ㅇ 도수분포곡선이 평균값을 중심으로 하여 죄우 대칭인 종 모양을 이루는 연속 확률 분포
        ㅇ 가우스 함수로 표현
           

    ㅁ 중심극한정리(Central Limit Theorem)
        ㅇ 표본의 크기가 충분히 크다면(n>30) 표본평균들의 분포는 정규분포를 따름
       


    ㅁ 표준정규분포
        ㅇ 평균이 0이고 표준편차가 1인 정규분포
         

   ㅁ 신뢰도와 유의수준
        ㅇ 귀무가설의 영역에 해당하는 함수의 넓이가 신뢰도
        ㅇ 대립가설의 영역에 해당하는 함수의 넓이가 유의수준
         

   ㅁ 표본의 z-score
        ㅇ 표본평균이 Z-Score(혹은 검정통계량)가 1.96 이상이거나 -1.96 이하이면 대립가설 채택
         

    ㅁ p-value와 검정통계량의 의미
        ㅇ p-value(유의확률) : 검정통계량(표본평균의 z-score)보다 큰 값이 나올 확률
         

    ㅁ p-value와 검정통계량의 판단
        ㅇ 검정통계량(표본평균의 z-score)이 임계값 밖에 있으면 대립가설 채택
        ㅇ p-value가 유의수준보다 작으면 대립가설 채택
         


        ㅇ 검정통계량(표본평균의 z-score)이 임계값인 1.96보다 크거나 -1.96보다 작으면 대립가설 채택
        ㅇ p-value가 유의수준인 0.05보다 작으면 대립가설 채택
         

    ㅁ 가설검증 절차
         

반응형

+ Recent posts