반응형

/*******************************************************************************************************************
-- Title : [Stats] 분포(distribution)와 표본 추출(sampling)
-- Reference : acorn, googling
-- Key word : 통계 statistics 이산분포 이산 분포 연속분포 연속분포 distribution 이산 확률 분포 연속 확률 분포
                  이항 다항 초기하 기하 음이항 포아송 베르누이 균등 정규 지수 감마 베타 t-분포 카이제곱 F-분포
                  poisson distribution gaussian distribution z-score z-값 가우스 분포 표본추출 표본분포 
*******************************************************************************************************************/

■ 이산분포와 연속분포
    ㅁ 확률변수(random variable)
        - a variable that contains the outcomes of a chance experiment

    ㅁ 이산 (확률) 분포
        ㅇ 정수로 딱 떨어져서 셀 수 있는 경우의 분포
            ex. 1학년 반마다 안경쓴 학생의 수, 주사위를 10(=n)번 던져 6(=p)이 나온 회수
            ex. Bar plot 표현
        ㅇ 평균 or 기대값
            - long-run average of occurrences
        ㅇ Variance(분산)와 Standard Deviation(표준편차)
        ㅇ 이항, 다항, 초기하, 기하, 음이항, 포아송, 베르누이 등

    ㅁ 연속 (확률) 분포
        ㅇ 키가 160~169.9 Cm, 170~179.9 Cm의 구간에 해당하는 경우의 수
            ex. Histogram 표현
        ㅇ 평균, 분산, 표준편차의 성질
        ㅇ 균등, 정규, 지수, 감마, 베타, t분포, 카이제곱, F분포


■ 이산 (확률) 분포 
    ㅁ 이항분포
        ㅇ 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산확류 분포
            ex. 주사위를 10(=n)회 던져 6(=p)이 나온 회수를 센다.
        ㅇ Binomial formula(이항식)
        ㅇ 이항분포의 평균과 표준편차
         


    ㅁ Poisson Distribution(포아송 분포)
        ㅇ Law of improbable events
        ㅇ 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현
            ex. 어떤 시간 동안 톨게이트를 통과한 차량의 수  
         

    ㅁ 초기하 분포
        ㅇ n개 중에 k개만 맞다고 할 때 n개 중 n개를 뽑앗을 때 맞는 개수 k에 대한 분포
        ㅇ 이항분포는 복원추출로 매 실험조건이 동일, but 초기하분포는 비복원추출로 매 실험 조건이 다름
            ex. 어느 보험회사 직원 10명 중 여성은 6명일 때, 비복원추출로 7명을 뽑을 때 여성 4명이 나올 확률


■ 연속 (확률) 분포 
    ㅁ 정규 분포
        ㅇ 개요
            - Gaussian distribution(가우스 분포)라고도 함
            - 정규 분포의 확률밀도함수 = 중심극한정리에 의해 독립적인 확률변수들의 평균은 정규분포에 가까워짐
            - 모든 값을 표현하기에 최대/최소값 없이 무한대로 표현
        ㅇ Standardized Normal Distribution
            - 정규분포 중에서도 평균이 0이고 표준편차가 1인것을 표준정규분포라 함
            - z score = 평균을 중심으로 한 표준편차의 개수
            - z distribution
         

    ㅁ 지수 분포
        ㅇ 사건이 서로 독립적일 때 일정 시간 동안 발생한 사건의 회수 = 포아송 분포
            다음 사건이 일어날 때까지 대기 시간은 = 지수 분포
        ㅇ Random occurrences 사이 시간의 확률 분포
         


■ 표본 추출과 표본 분포
    ㅁ 표본 추출(sampling extraction)
        ㅇ 단순 무작위 표본 추출
            * 유한 모집단(finite population)
                - 조직의 등록 멤버, 신용카드 계좌 수, 재고 생산품의 수 
                - 복원추출(sampling with replacement)
                - 난수 사용한 표본 추출 가능
            * 무한 모집단(infinite population)
                - 무한히 계속 진행되는 한 과정에서 생성된 항목들
                - 모집단의 모든 요소에 대한 목록 작성 불가
                - 난수를 이용한 표본 추출 불가

    ㅁ 표본 분포(sampling distribution)
        - 중심 극한 정리
        - z Formula for Sample Means
        - Sampling from a Finite Population


반응형

+ Recent posts