/*******************************************************************************************************************
-- Title : [AL] Logistic Regression - 로지스틱 회귀 분석
-- Reference : acorn, googling, 한성대 강의 자료
-- Key word : 로지스틱 회귀 분석 logistic regression 최소자승법 OLS 최대우도법 로짓 logit 오즈 odds
*******************************************************************************************************************/
■ 로지스틱 회귀분석 개요
ㅁ 로지스틱 회귀분석
ㅇ 분석하고자 하는 대상들이 두 집단 혹은 그 이상의 집단으로 나누어진 경우 개별 관측치들이 어느
집단에 분류될 수 있는 가를 분석하고 이를 예측하는 모형을 개발하는데 사용되는 통계기법
ㅁ 선형 LR vs. 로지스틱 LR
ㅁ 로지스틱 회귀분석 과정
ㅇ 1단계: 각 집단에 속하는 확률의 추정치를 예측, 이진분류의 경우 집단 1에 속하는 확률 P(Y=1)의
추정치로 얻음
ㅇ 2단계: 추정확률 -> 분류기준값(cut-off) 적용 -> 특정범주로 분류
ex) P(Y=1)≥ 0.5 -> 집단 1로 분류
P(Y=1)< 0.5 -> 집단 0으로 분류
■ 로지스틱 회귀분석 원리
ㅁ 로짓(logit) 함수 : log(odds)
ㅇ 종속변수로 Y를 사용하는 대신에 로짓함수 사용
ㅇ 집단1에 속하는 확률인 p를 구함
ㅇ P는 [0,1] 사이의 값을 갖음
ㅇ 그러나, 만약 p를 다음의 식과 같이 q개의 예측변수들의 선형함수로 표현한다면 우변이 0과 1사이
의 값을 갖는다는 것을 보장할 수 없게 됨
ㅇ 따라서, 다음과 같은 비선형 함수 이용
ㅁ 오즈(odds)
ㅇ 사건의 odds가 주어졌을 때 사건의 확률을 계산할 수 있음
ㅇ 어떤 사건이 일어날 확률과 일어나지 않을 확률의 비
ㅁ 로짓(logit) : log(odds)
ㅇ 로지스틱 회귀분석이란 로짓을 종속변수로 정의하고 이 로짓과 q개의 예측변수와의 관계를 선형
으로 모형화한 것을 말함
ㅁ 로지스틱 분포