/*******************************************************************************************************************
-- Title : [AL] Regression - 단순/다중/비선형 회귀 분석
-- Reference : acorn, googling
-- Key word : 단순 회귀 분석 다중 회귀 분석 simple regression multi regression 연구가설 연구 가설 귀무가설
귀무 가설 다중공선성 multocolinearity lm lr nlr 비선형회귀분석 추정 설명모형 예측모형
*******************************************************************************************************************/
■ 단순 회귀분석(Simple Regression Analysis)
ㅁ 독립변수와 종속변수가 각각 1개
ㅁ 독립변수가 종속변수에 미치는 인과관계 분석
ㅁ 단순 회귀분석 가설
ㅇ 연구가설(Ha)
• 음료수 제품의 당도와 가격 수준을 결정하는 제품 적절성(독립변수)은 제품 만족도(종속변수)에
정(正)의 영향을 미침
ㅇ 귀무가설(H0)
• 음료수 제품의 당도와 가격수준을 결정한느 제품 적절성은 제품의 만족도에 영향을 미치지 않음
ㅇ t와 p-value 추정
• t-value : 19.34 > ±1.96이고, p-value : 2.2e-16 < 0.05(유의수준)일 때 연구가설을 채택
• 검정통계량(t-value), 유의확률(p-value)
■ 회귀 모형의 구축
ㅁ 설명모형 vs. 예측모형
ㅇ 전통 통계학 : 출력 변수와 예측 변수들간의 관계 설명
ㅇ 데이터마이닝 : 새로운 사례에 대한 출력값을 예측
ㅁ 설명모형(Explanatory Model)
ㅇ 전통적인 통계분야로서 데이터가 적은 모형
ㅇ 목적
• 모집단에서 가정하는 가설적 관계에 대한 정보를 최대한 반영할 수 있도록 전체 데이터 집합을
사용하여 최상의 적합모형을 추정
ㅁ 예측모형(Predictive Model)
ㅇ 데이터마이닝 분야로서 데이터가 충분히 많은 모형
ㅇ 목적
• 적합된 모형을 이용하여 알려지지 않은 데이터에 대한 예측
ㅇ 학습용 집합(모형추정)과 평가용 집합(모형성능 평가)로 나뉨
■ 회귀 모형의 구축
ㅁ 추정
ㅇ 회귀계수 β0, ..., βp를 추정하는 것
ㅇ 최소자승법(Ordinary Least Square: OLS)을 이용하여 추정
• 학습용 데이터에 대한 실제값(Y)과 예측된 값(^Y)간의 차이(잔차)제곱이 최소화되는 계수
^β0, ..., ^βp를 찾음
ㅁ 회귀분석의 가정
ㅇ 가정 1: 독립변수들간의 선형관계가 존재
ㅇ 가정 2: εi은 정규분포를 따름
ㅇ 가정 3: E(εi) = 0
ㅇ 가정 4: V(εi) = σ² (homoscedasiticity)
ㅇ 가정 5: 사례들은 서로 독립 (cov(ei, ej) - 0, i ≠ j)
■ 다중 회귀분석(Multi Regression Analysis)
ㅁ 여러 개 독립변수가 1개의 종속변수에 미치는 영향 분석
ㅁ 연구 가설
ㅇ 연구가설1(Ha) : 음료수 제품의 적설정(독립변수1)은 제품 만족도(종속변수)에 정(正)의 영향을 미침
ㅇ 연구가설2(Ha) : 음료수 제품의 친밀도(독립변수2)은 제품 만족도(종속변수)에 정(正)의 영향을 미침
ㅁ 다중공선성(Multicolinearity) 문제
ㅇ 독립변수 간의 강한 상관관계로 인해서 회구분석의 결과를 신뢰할 수 없는 현상
ㅇ 생년월일과 나이를 독립변수로 갖는 경우
ㅇ 해결방안 : 강한 상관관계를 갖는 독립변수 제거
■ Regularization
ㅁ 개념
ㅇ 독립변수의 개수가 많을 경우 이를 축소하여 단순화(shrinkage model)
ㅇ OLS fitting에 대한 alternative fitting을 통한 MSE 최소화
ㅁ 필요성
ㅇ Prediction Accuracy
ㅇ Model Interpretability
ㅁ a Subset Selection
ㅇ Best Subset Selection
ㅇ Stepwise Selection
ㅇChoosing the Optimal Model
ㅁ Shrinkage Methods
ㅇ Ridge Regression
ㅇ The Lasso
ㅇ Elastic Net(Ridge + Lasso)
■ Non-Linear Regression
ㅁ 개념
ㅇ 비선형으로의 확장
ㅇ The truth is never linear
ㅇ often the linearity assumption is good enough
ㅁ 종류
ㅇ Polynomial Regression : 차수를 높이는 것, 다항식 생성
ㅇ Step 함수
ㅇ Basis 함수
ㅇ Regression Splines
ㅇ Smoothing Splines
ㅇ Local Regression : 구간별로 LR 구현
ㅇ GAM (Generalized Additive Model)
ㅇ Spline의 평활화
[AL] Regression - 단순/다중/비선형 회귀 분석
2017. 5. 24. 15:19
반응형
반응형