반응형

/*******************************************************************************************************************
-- Title : [AL] Regression - 단순/다중/비선형 회귀 분석
-- Reference : acorn, googling
-- Key word : 단순 회귀 분석 다중 회귀 분석 simple regression multi regression 연구가설 연구 가설 귀무가설
                  귀무 가설 다중공선성 multocolinearity lm lr nlr 비선형회귀분석 추정 설명모형 예측모형
*******************************************************************************************************************/

■ 단순 회귀분석(Simple Regression Analysis)

    ㅁ 독립변수와 종속변수가 각각 1개
    ㅁ 독립변수가 종속변수에 미치는 인과관계 분석

    ㅁ 단순 회귀분석 가설
        ㅇ 연구가설(Ha) 
            • 음료수 제품의 당도와 가격 수준을 결정하는 제품 적절성(독립변수)은 제품 만족도(종속변수)에
              정(正)의 영향을 미침
        ㅇ 귀무가설(H0)
            • 음료수 제품의 당도와 가격수준을 결정한느 제품 적절성은 제품의 만족도에 영향을 미치지 않음
        ㅇ t와 p-value 추정
            • t-value : 19.34 > ±1.96이고, p-value : 2.2e-16 < 0.05(유의수준)일 때 연구가설을 채택
            • 검정통계량(t-value), 유의확률(p-value)


■ 회귀 모형의 구축
    ㅁ 설명모형 vs. 예측모형
        ㅇ 전통 통계학 : 출력 변수와 예측 변수들간의 관계 설명
        ㅇ 데이터마이닝 : 새로운 사례에 대한 출력값을 예측
  
    ㅁ 설명모형(Explanatory Model)
        ㅇ 전통적인 통계분야로서 데이터가 적은 모형
        ㅇ 목적
            • 모집단에서 가정하는 가설적 관계에 대한 정보를 최대한 반영할 수 있도록 전체 데이터 집합을 
              사용하여 최상의 적합모형을 추정

    ㅁ 예측모형(Predictive Model)
        ㅇ 데이터마이닝 분야로서 데이터가 충분히 많은 모형
        ㅇ 목적
            • 적합된 모형을 이용하여 알려지지 않은 데이터에 대한 예측
        ㅇ 학습용 집합(모형추정)과 평가용 집합(모형성능 평가)로 나뉨


■ 회귀 모형의 구축
    ㅁ 추정
        ㅇ 회귀계수 β0, ..., βp를 추정하는 것
        ㅇ 최소자승법(Ordinary Least Square: OLS)을 이용하여 추정
            • 학습용 데이터에 대한 실제값(Y)과 예측된 값(^Y)간의 차이(잔차)제곱이 최소화되는 계수
              ^β0, ..., ^βp를 찾음

    ㅁ 회귀분석의 가정
        ㅇ 가정 1: 독립변수들간의 선형관계가 존재
        ㅇ 가정 2: εi은 정규분포를 따름
        ㅇ 가정 3: E(εi) = 0
        ㅇ 가정 4: V(εi) = σ² (homoscedasiticity)
        ㅇ 가정 5: 사례들은 서로 독립 (cov(ei, ej) - 0, i ≠ j)


■ 다중 회귀분석(Multi Regression Analysis)
    ㅁ 여러 개 독립변수가 1개의 종속변수에 미치는 영향 분석

    ㅁ 연구 가설
        ㅇ 연구가설1(Ha) : 음료수 제품의 적설정(독립변수1)은 제품 만족도(종속변수)에 정(正)의 영향을 미침
        ㅇ 연구가설2(Ha) : 음료수 제품의 친밀도(독립변수2)은 제품 만족도(종속변수)에 정(正)의 영향을 미침

    ㅁ 다중공선성(Multicolinearity) 문제
        ㅇ 독립변수 간의 강한 상관관계로 인해서 회구분석의 결과를 신뢰할 수 없는 현상
        ㅇ 생년월일과 나이를 독립변수로 갖는 경우
        ㅇ 해결방안 : 강한 상관관계를 갖는 독립변수 제거


■ Regularization
    ㅁ 개념
        ㅇ 독립변수의 개수가 많을 경우 이를 축소하여 단순화(shrinkage model)
        ㅇ OLS fitting에 대한 alternative fitting을 통한 MSE 최소화

    ㅁ 필요성
        ㅇ Prediction Accuracy
        ㅇ Model Interpretability

    ㅁ a Subset Selection
        ㅇ Best Subset Selection
        ㅇ Stepwise Selection
        ㅇChoosing the Optimal Model

    ㅁ Shrinkage Methods
        ㅇ Ridge Regression
        ㅇ The Lasso
        ㅇ Elastic Net(Ridge + Lasso)


■ Non-Linear Regression
    ㅁ 개념
        ㅇ 비선형으로의 확장
        ㅇ The truth is never linear
        ㅇ often the linearity assumption is good enough

    ㅁ 종류
        ㅇ Polynomial Regression : 차수를 높이는 것, 다항식 생성
        ㅇ Step 함수
        ㅇ Basis 함수
        ㅇ Regression Splines
        ㅇ Smoothing Splines
        ㅇ Local Regression : 구간별로 LR 구현
        ㅇ GAM (Generalized Additive Model)
        ㅇ Spline의 평활화
      




반응형

+ Recent posts