/*******************************************************************************************************************
-- Title : [Stats] 확률/통계/알고리즘 용어 및 기호
-- Reference : googling, ktword.co.kr/abbr_view.php?nav=2&id=587
-- Key word : 확률 통계 용어 기호 알고리즘
*******************************************************************************************************************/
* 확률
- probability
- 모든 사건이 일어나는 경우의 수 중에서 특정 사건이 일어나는 경우의수에 대한 비율
* 독립변수
- iv, independent variable
- 원인적인 변수, 실험 요인으로 예언 할 수 있는 변인
* 종속변수
- dv, dependent variable
- 실험요인의 영향을 받아서 나타나는 결과
* 표본공간
- sample space
- 통계 실험에 의해 얻어진 가능한 모든 결과
* 분산
- variance
- 값들이 평균에서 얼마나 멀리 불규칙적으로 떨어져 있는가를 표현
* 표준편차
- sd, standard deviation
- 분산을 제곱근한 값
* 모평균
- μ, population mean
- 확률변수의 기대값
* 모분산(σ²)
* 표본평균
- ^μ, sample mean
- 일상적으로 평균이라고 부르는 것으로 산술 평균
* 가설
- hypothesis
- 과학적 조사에 의하여 검정이 가능한 사실
* 귀무 가설
- H0
- ex. 모집단과 Sample의 평균은 같음
* 대립가설
- Ha
- ex. 모집단과 Sample의 평균은 다름
* 제 1종 오류
- α error
- 귀무가설 H0가 옳은데도 불고하고 H0를 기각하게 되는 오류
* 제 2종 오류
- β error
- 귀무가설 H0가 올지 않은데도 H0를 채택하는 오류
* 유의수준
- α
- 표본 평균이 모평균과 같은데, 표본평균과 모평균이 다르다고 선택하는 오류를 범할 허용 한계
* 신뢰도
- 1-α
- 검정하려는 귀무가설이 참인 경우, 이를 옳다고 판단할 수 있는 확률
* 유의확률
- p-value
- 관측된 유의수준, 유의 확률
- 분포에서 통계량이 확률적으로 봤을 때 어떤 값을 가지는지 "통계량을 확률로 환산한 수치"
* t-분포
* t-값
- t-value
- t분포에 기초해서 나온 수치
- 각 독립변수의 유의성을 판단하기 위한 통계량
* F-분포
- 분산의 비교를 통해 얻어진 분포 비율
- 집단간의 분산의 동질성을 가정하고 진행하기에 분산이 크다면 변인을 제거해야 함
- 그렇지 못하면 분산분석 신뢰도 하락
* F-값
- F-value
- F분포에 기초해서 나온 수치
- 모형의 유의성을 판단하기 위한 통계량
* 모표준편차
- σ
* 검정통계량
- t, t-value
- 관찰된 표본으로부터 구하는 통계량
- 표본평균의 z-score
* z-score
* 평균
- mean
- 전체적인 값의 크기를 파악하는 평균값
* 공분산
- covariance
- 두 종류의 변수가 서로 상관 관계를 가지고 있는가를 나타내는 대표값
* 상관계수
- correlation
- 공분산의 값이 [+/- 무한대]로 범위가 커서 쓰기 힘든 경우 이를 해결하기 위해 [-1,1]의 값을 갖도록 표준화
* 조건부 확률
- conditional probability
- 특정 선행 사건이 일어난 전제하에 다른 어떤 사건이 일어날 확률
* 확률 변수
- rv, random variable
- 임의 확률을 가진 사건을 시행했을 때 그 결과를 나타내는 것
- 표본공간의 각원소에 관한 실수값을 대응시키는 함수
* 확률 변수 기대값
- expectation of rv
- 해당 사건을 수행하였을 때 예상되는 관측 결과로 전체 확률 변수의 평균과 동일
* 베이즈 정리
- bayes theorem
* 맥시멈 라이클리후드 측정
- masinum likelihood estimate
- 라이클리후드 값을 최대화하는 모델 파라미터를 선택하는 방법론
- 계산 용이, 쉬운 사용이 장점
* 맥시멈 포스테리어리 측정
- maximum a posteriori estimate
- 포스테리어 확률 값을 최대화하는 모델 파라미터를 선택하는 방법론
- 베이즈 정리를 이용해 라이클리후드에 Prior를 곱하는 형태
* 기대값
- expectation
- 확률변수의기대값은 어떤 확률적 사건에 대한 평균을 의미
- 베르누이분포의 기대값 : p
- 이항분포의 기대값 : np
- 기하분포의 기대값 : 1/p
- 포아송분포의 기대값 : λ
- 균등분포의 기대값 : (a+b)/2
- 지수분포의 기대값 : 1/λ
- 정규분포의 기대값 : μ
* 베르누이 시행
- binomial trial
- 어떤 과정이나 실험에서 한가지 시행을 하였을 때 나올 수 있는 사례가 서로 배타적인 것
* 이항분포
- binomial distribution
- 베르누이 과정에 의한 확률 분포
- 두 사건만 일어나며 두 사건은 상호배반적이고 각 시행은 독립적일 때의 확률 분포
* 음이항분포
- negative binomial distribution
- 성공회수가 r이 될 때까지 시행을 반복하는 회수 X를 값으로 가지는 확률 변수
* 기하분포
- geometric distribution
- 음이항분포의 특별한 경우이며 첫번째 성공을 할 때까지 필요한 시행 횟수
* 포아송분포
- poisson distribution
- 어떤 특정 시간대에 걸쳐 알려진 사건의 발생률에 대한 분포를 표현하는 이산형 확률 분포
- 주로 시간/거리/공간 상에서 무작위로 드물게 발생하는 사건의 수를 묘사
* 분산분석
- anova, analysis of variance
- 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균 차이에 의해 생긴
집단 간 분산의 비교를 통해 만들어진 F분포를 이용한 가설검정 방법
* 직교벡터
- orthogonal vector
- 두 벡터 사이의 각도가 90도를 이루는 것
* 고유벡터
- eigen vector
- 행렬에 따라 정의되는 값으로
- 행렬 A를 선형변환으로 봤을 때, 선형변환 A에 의한 변환 결과가 자기 자신의 상수배가 되는 0이 아닌 벡터
* 특이값 분해
- svd, singular value decomposition
- 세상은 SVD위에서 돌아간다고 함
- 차원 축소
* 차원 축소
- dimension reduction
- 고차원의 데이터를 정보 손실을 최소화하여 저차원의 데이터로 전환하는 것
- 저차원으로 인해 시각화나 지관적 분석 가능
* 주성분 분석
- pca, principal component analysis
- 이미지와 같은 고차원 데이터에서 패턴을 찾는 도구
- 기계학습 알고리즘에서 데이터를 인공 신경망에 입력하기 전의 전처리 과정에서 사용되곤 함
* 일반 최소 제곱 = 선형 최소 제공
- ols, ordinary least squares
- 선형회귀모델에서 미지의 매개 변수를 추정하는 방법으로 관측된 응답 사이의 차이를 제곱한 합을 최소화
* 누적분포함수
- cdf, cumulative distribution function
- 분포와 관련된 누적 확률
* 확률밀도함수
- pdf, probability density function
- cdf 미분
* 와이블 분포(weibull distribution)
- 신뢰도 데이터를 모형화하기 위해 사용되는 가장 일반적인 분포
* 단순회귀분석
- slr, simple linear regression
* 다중회귀분석
- mlr, multi linear regression
* 벡터 공간 모델
- vsm, vetor space model
* 내재적 디히클레 할당
- lda, latent dirichlet allocation
- 문서의 주제(토픽)을 찾는 generative model
* 단어 임베딩, 워드 임베딩
- word embedding (≒ word vectors )
- 문장의 텍스트를 숫자로 바꿔 컴퓨터가 이해할 수 있도록 변환된 상태
* 카운트 벡터
- count vector
- 단어 개수를 이용하여 word embedding한 벡터
[Stats] 확률/통계/알고리즘 용어 및 기호
2017. 5. 24. 09:31
반응형
반응형