반응형

/*******************************************************************************************************************
-- Title : [Stats] 확률/통계/알고리즘 용어 및 기호
-- Reference : googling, ktword.co.kr/abbr_view.php?nav=2&id=587
-- Key word : 확률 통계 용어 기호 알고리즘
*******************************************************************************************************************/

* 확률
    - probability
    - 모든 사건이 일어나는 경우의 수 중에서 특정 사건이 일어나는 경우의수에 대한 비율

* 독립변수
    - iv, independent variable
    - 원인적인 변수, 실험 요인으로 예언 할 수 있는 변인

* 종속변수
    - dv, dependent variable
   - 실험요인의 영향을 받아서 나타나는 결과

* 표본공간
    - sample space
    - 통계 실험에 의해 얻어진 가능한 모든 결과

* 분산
    - variance
    - 값들이 평균에서 얼마나 멀리 불규칙적으로 떨어져 있는가를 표현

* 표준편차
    - sd, standard deviation
    - 분산을 제곱근한 값

* 모평균
    - μ, population mean
    - 확률변수의 기대값

* 모분산(σ²)

* 표본평균
    - ^μ, sample mean
    - 일상적으로 평균이라고 부르는 것으로 산술 평균

* 가설
    - hypothesis
    - 과학적 조사에 의하여 검정이 가능한 사실

* 귀무 가설
    - H0
    - ex. 모집단과 Sample의 평균은 같음

* 대립가설
    - Ha
    - ex. 모집단과 Sample의 평균은 다름

* 제 1종 오류
    - α error
    - 귀무가설 H0가 옳은데도 불고하고 H0를 기각하게 되는 오류

* 제 2종 오류
    - β error
    - 귀무가설 H0가 올지 않은데도 H0를 채택하는 오류

* 유의수준
    - α
    - 표본 평균이 모평균과 같은데, 표본평균과 모평균이 다르다고 선택하는 오류를 범할 허용 한계

* 신뢰도
    - 1-α
    - 검정하려는 귀무가설이 참인 경우, 이를 옳다고 판단할 수 있는 확률

* 유의확률
    - p-value
    - 관측된 유의수준, 유의 확률
    - 분포에서 통계량이 확률적으로 봤을 때 어떤 값을 가지는지 "통계량을 확률로 환산한 수치"

* t-분포

* t-값
    - t-value
    - t분포에 기초해서 나온 수치
    - 각 독립변수의 유의성을 판단하기 위한 통계량

* F-분포
    - 분산의 비교를 통해 얻어진 분포 비율
    - 집단간의 분산의 동질성을 가정하고 진행하기에 분산이 크다면 변인을 제거해야 함
    - 그렇지 못하면 분산분석 신뢰도 하락

* F-값
    - F-value
    - F분포에 기초해서 나온 수치
    - 모형의 유의성을 판단하기 위한 통계량

* 모표준편차
    - σ

* 검정통계량
    - t, t-value
    - 관찰된 표본으로부터 구하는 통계량
    - 표본평균의 z-score

* z-score

* 평균
    - mean
    - 전체적인 값의 크기를 파악하는 평균값

* 공분산
    - covariance
    - 두 종류의 변수가 서로 상관 관계를 가지고 있는가를 나타내는 대표값

* 상관계수
    - correlation
    - 공분산의 값이 [+/- 무한대]로 범위가 커서 쓰기 힘든 경우 이를 해결하기 위해 [-1,1]의 값을 갖도록 표준화

* 조건부 확률
    - conditional probability
    - 특정 선행 사건이 일어난 전제하에 다른 어떤 사건이 일어날 확률

* 확률 변수
    - rv, random variable
    - 임의 확률을 가진 사건을 시행했을 때 그 결과를 나타내는 것
    - 표본공간의 각원소에 관한 실수값을 대응시키는 함수

* 확률 변수 기대값
    - expectation of rv
    - 해당 사건을 수행하였을 때 예상되는 관측 결과로 전체 확률 변수의 평균과 동일

* 베이즈 정리
    - bayes theorem

* 맥시멈 라이클리후드 측정
    - masinum likelihood estimate
    - 라이클리후드 값을 최대화하는 모델 파라미터를 선택하는 방법론
    - 계산 용이, 쉬운 사용이 장점

* 맥시멈 포스테리어리 측정
    - maximum a posteriori estimate
    - 포스테리어 확률 값을 최대화하는 모델 파라미터를 선택하는 방법론
    - 베이즈 정리를 이용해 라이클리후드에 Prior를 곱하는 형태

* 기대값
    - expectation
    - 확률변수의기대값은 어떤 확률적 사건에 대한 평균을 의미
    - 베르누이분포의 기대값 : p
    - 이항분포의 기대값 : np
    - 기하분포의 기대값 : 1/p
    - 포아송분포의 기대값 : λ
    - 균등분포의 기대값 : (a+b)/2
    - 지수분포의 기대값 : 1/λ
    - 정규분포의 기대값 : μ

* 베르누이 시행
    - binomial trial
    - 어떤 과정이나 실험에서 한가지 시행을 하였을 때 나올 수 있는 사례가 서로 배타적인 것

* 이항분포
    - binomial distribution
    - 베르누이 과정에 의한 확률 분포
    - 두 사건만 일어나며 두 사건은 상호배반적이고 각 시행은 독립적일 때의 확률 분포

* 음이항분포
    - negative binomial distribution
    - 성공회수가 r이 될 때까지 시행을 반복하는 회수 X를 값으로 가지는 확률 변수

* 기하분포
    - geometric distribution
    - 음이항분포의 특별한 경우이며 첫번째 성공을 할 때까지 필요한 시행 횟수

* 포아송분포
    - poisson distribution
    - 어떤 특정 시간대에 걸쳐 알려진 사건의 발생률에 대한 분포를 표현하는 이산형 확률 분포
    - 주로 시간/거리/공간 상에서 무작위로 드물게 발생하는 사건의  수를 묘사

* 분산분석
    - anova, analysis of variance
    - 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균 차이에 의해 생긴
      집단 간 분산의 비교를 통해 만들어진 F분포를 이용한 가설검정 방법

* 직교벡터
    - orthogonal vector
    - 두 벡터 사이의 각도가 90도를 이루는 것

* 고유벡터
    - eigen vector
    - 행렬에 따라 정의되는 값으로 
    - 행렬 A를 선형변환으로 봤을 때, 선형변환 A에 의한 변환 결과가 자기 자신의 상수배가 되는 0이 아닌 벡터

* 특이값 분해
    - svd, singular value decomposition
    - 세상은 SVD위에서 돌아간다고 함
    - 차원 축소

* 차원 축소
    - dimension reduction
    - 고차원의 데이터를 정보 손실을 최소화하여 저차원의 데이터로 전환하는 것
    - 저차원으로 인해 시각화나 지관적 분석 가능

* 주성분 분석
    - pca, principal component analysis
    - 이미지와 같은 고차원 데이터에서 패턴을 찾는 도구
    - 기계학습 알고리즘에서 데이터를 인공 신경망에 입력하기 전의 전처리 과정에서 사용되곤 함

* 일반 최소 제곱 = 선형 최소 제공
    - ols, ordinary least squares
    - 선형회귀모델에서 미지의 매개 변수를 추정하는 방법으로 관측된 응답 사이의 차이를 제곱한 합을 최소화

* 누적분포함수
    - cdf, cumulative distribution function
    - 분포와 관련된 누적 확률

* 확률밀도함수
    - pdf, probability density function
    - cdf 미분

* 와이블 분포(weibull distribution)
    - 신뢰도 데이터를 모형화하기 위해 사용되는 가장 일반적인 분포

* 단순회귀분석
    - slr, simple linear regression

* 다중회귀분석
    - mlr, multi linear regression

* 벡터 공간 모델
    - vsm, vetor space model

* 내재적 디히클레 할당
    - lda, latent dirichlet allocation
    - 문서의 주제(토픽)을 찾는 generative model

* 단어 임베딩, 워드 임베딩
   - word embedding (≒ word vectors )
   - 문장의 텍스트를 숫자로 바꿔 컴퓨터가 이해할 수 있도록 변환된 상태

* 카운트 벡터
    - count vector
    - 단어 개수를 이용하여 word embedding한 벡터 

반응형

+ Recent posts