반응형
/*******************************************************************************************************************
-- Title : [R3.3] 예측분석 - 다중공선성, 선형 회귀분석 및 로지스틱 회귀분석
-- Reference : hrd-net
-- Key word : R 다중공선성 multicolinearity vif cor result.lm summary lm pred resid residuals shapiro.test
logistic regression predict 혼돈 matrix 분류정확도 시그모이드 회귀모델 glm 선형 회귀 분석
잔차 등분산성 회귀 방정식 linear model
*******************************************************************************************************************/
-- Chart
-- R
| # ************************************************ # -- 1. 다중공선성(Multicolinearity) # ************************************************ # - 독립변수 간의 강한 상관관계로 인해서 회귀분석의 결과를 신뢰할 수 없는 현상 # - 생년월일과 나이를 독립변수로 갖는 경우 # - 해결방안 : 강한 상관관계를 갖는 독립변수 제거 # ------------------------------ # -- (1) 다중공선성 문제 확인 # ------------------------------ install.packages("car") library(car) fit = lm(formula=Sepal.Length ~ Sepal.Width+Petal.Length+Petal.Width, data=iris) vif(fit) sqrt(vif(fit))>2 # root(VIF)가 2 이상인 것은 다중공선성 문제 의심 # ------------------------------ # -- (2) iris 변수 간의 상관계수 구하기 # ------------------------------ cor(iris[,-5]) # 변수간의 상관계수 보기(Species 제외) # x변수들끼리 계수값이 높을 수도 있다. -> 해당 변수 제거(모형 수정) = Petal.Width # ------------------------------ # -- (3) 학습데이터와 검정데이터 분류 # ------------------------------ x = sample(1:nrow(iris), 0.7*nrow(iris)) # 전체중 70%만 추출 train = iris[x, ] # 학습데이터 추출 test = iris[-x, ] # 검정데이터 추출 # ------------------------------ # -- (4) Petal.Width 변수를 제거한 후 회귀분석 # ------------------------------ result.lm = lm(formula=Sepal.Length ~ Sepal.Width + Petal.Length, data=train) result.lm summary(result.lm) # ------------------------------ # -- (5) 회귀방정식 적용 상품 구매 금액 예측 # ------------------------------ # 방문횟수, 구매횟수, 평균구매액 변수를 대상으로 # 다음과 같이 다중회귀 분석을 이용하여 총구매금액을 예측하시오. # # <조건1> 변수 모델링 # y변수 : tot_price(총구매금액) # x변수 : visit_count(방문횟수), buy_count(구매횟수), avg_price(평균구매액) # # <조건2> train/test 데이터 셋 생성(7:3 비율) # # -- 데이터셋 가져오기 result = read.csv("D:\\RProject\\Rwork\\Part-IV\\product_sales.csv", header=T) head(result) # 데이터 셋 확인 # -- 단계1 : train/test 데이터 셋 생성(7:3 비율) - sample()함수 이용 idx = sample(1:nrow(result), 0.7*nrow(result)) train = result[idx, ] # 훈련 데이터 test = result[-idx, ] # 검정 데이터 # -- 단계2 : 다중회귀모델 생성 및 계수값 보기 - lm()함수 이용 model = lm(tot_price ~visit_count+buy_count+avg_price, data = train) # -- 단계3: 회귀분석 결과 해석 - summary()함수 이용 summary(model) # -- 단계4: 회귀방정식을 적용하여 total값 예측 - predict()함수 이용 model # 2.7193 -0.4398 0.4375 0.6241 # -- 회귀방정식 total=2.7193+(-0.4398)*visit_count+0.4375*buy_count+0.6241*avg_price # 왜 에러가 날까? pred = predict(model, test) cor(pred, test$tot_price) # 0.893091 # ************************************************ # -- 2. 선형회귀분석 절차(전제조건) # ************************************************ # 1. 변수 모델링 : y ~ x1 + x2 + xn # 2. 회귀모델 생성 # 3. 잔차(오차) 분석 # 1) 독립성과 등분산성 검정 # 2) 잔차의 정규성 검정 # 4. 다중공선성 검사 # 5. 회귀모델 생성/ 평가 names(iris) # ------------------------------ # -- 1. 변수 모델링 : y:Sepal.Length = x:Sepal.Width,Petal.Length,Petal.Width # ------------------------------ formula = Sepal.Length ~ Sepal.Width + Petal.Length + Petal.Width # ------------------------------ # -- 2. 회귀모델 생성 # ------------------------------ model = lm(formula = formula, data=iris) model # ------------------------------ # -- 3. 잔차(오차) 분석 # ------------------------------ # -- (1) 독립성과 등분산성 검정 # 독립성 검정 install.packages('lmtest') library(lmtest) dwtest(model) # DW = 2.0604 -> 2 ~ 4 # 등분산성 검정 plot(model, which = 1) # -- (2) 잔차 정규성 검정 attributes(model) # coefficients(계수), residuals(잔차), fitted.values(적합값) names(model) # "coefficients" "residuals" res = resid(model) # 잔차 추출 res = residuals(model) # 귀무가설 : 정규분포와 차이가 없다. shapiro.test(res) # 정규성 검정 - p-value = 0.9349 # ------------------------------ # -- 4. 다중공선성 검사 # ------------------------------ library(car) sqrt(vif(model)) > 2 # TRUE # ------------------------------ # -- 5. 모델 생성/평가 # ------------------------------ formula = Sepal.Length ~ Sepal.Width + Petal.Length model = lm(formula = formula, data=iris) summary(model) # 모델 평가 # ************************************************ # -- 3. 로지스틱 회귀분석(Logistic Regression) # ************************************************ # 목적 : 일반 회귀분석과 동일하게 종속변수와 독립변수 간의 관계를 나타내어 # 향후 예측 모델을 생성하는데 있다. # 차이점 : 종속변수가 범주형 데이터를 대상으로 하며 입력 데이터가 주어졌을 때 # 해당 데이터의결과가 특정 분류로 나눠지기 때문에 분류분석 방법으로 분류된다. # 유형 : 이항형(종속변수가 2개 범주-Yes/No), 다항형(종속변수가 3개 이상 범주-iris 꽃 종류) # 분야 : 의료, 통신, 기타 데이터마이닝 # 선형회귀분석 vs 로지스틱 회귀분석 # 1. 로지스틱 회귀분석 결과는 0과 1로 나타난다.(이항형) # 2. 정규분포 대신에 이항분포를 따른다. # 3. 로직스틱 모형 적용 : 변수[-무한대, +무한대] -> 변수[0,1]사이에 있도록 하는 모형 # -> 로짓변환 : 출력범위를 [0,1]로 조정 # 4. 종속변수가 2개 이상인 경우 더미변수(dummy variable)로 변환하여 0과 1를 갖도록한다. # 예) 혈액형 A인 경우 -> [1,0,0,0] # ------------------------------ # -- 단계1. 데이터 가져오기 # ------------------------------ weather = read.csv("D:\\RProject\\Rwork\\Part-IV\\weather.csv", header=TRUE, stringsAsFactors = F) dim(weather) # 366 15 head(weather) str(weather) # -- chr 칼럼, Date, RainToday 칼럼 제거 weather_df = weather[, c(-1, -6, -8, -14)] dim(weather_df) # 366 11 # -- RainTomorrow 칼럼 -> 로지스틱 회귀분석 결과(0,1)에 맞게 더미변수 생성 weather_df$RainTomorrow[weather_df$RainTomorrow=='Yes'] = 1 weather_df$RainTomorrow[weather_df$RainTomorrow=='No'] = 0 weather_df$RainTomorrow = as.numeric(weather_df$RainTomorrow) head(weather_df) # ------------------------------ # -- 단계2. 데이터 셈플링 # ------------------------------ idx = sample(1:nrow(weather_df), nrow(weather_df)*0.7) train = weather_df[idx, ] test = weather_df[-idx, ] # ------------------------------ # -- 단계3. 로직스틱 회귀모델 생성 # glm(y ~ 나머지(.), date = dataset) # ------------------------------ weater_model = glm(RainTomorrow ~ ., data = train, family = 'binomial') weater_model summary(weater_model) # ------------------------------ # -- 단계4. 로직스틱 회귀모델 예측치 생성 # type="response" : 0 ~ 1 확률값으로 예측 # ------------------------------ pred = predict(weater_model, newdata=test, type="response") pred # -- 시그모이드 함수 cpred = ifelse(pred >= 0.5, 1, 0) table(cpred) # 0 1 #96 12 # -- 혼돈 matrix 분류정확도 table(cpred, test$RainTomorrow) #cpred 0 1 # 0 87 9 # 1 5 7 (87+7) / nrow(test) # 0.8545455 -> 85% | cs |
-- Files
반응형