/*
-- Title : 데이터마이닝 vs. 예측분석 절차
-- Reference : BDMBA, confusion matrix 매트릭스
*/
■ 데이터마이닝 분석 절차
■ 예측 분석
1. 데이터 준비 및 변수선정
2. 학습과 예측
•학습(모델 생성)
•예측(모델 적용)
3. Train/Validation/Test Data set 구성
4. 모델 평가
ㅁ Cross Validation
•𝑘-fold cross-validation은 전체 학습 데이터를 무작위로 𝑘개의 subset으로 나눠서 평가를 수행
•𝑘개의 subset 중에서 하나를 검증용으로 사용
•나머지 𝑘−1개의 subset으로 모델을 학습
•학습된 모델을 검증용으로 따로 떼어 놓았던 subset으로 평가
•이 과정을 모든 𝑘개의 subset이 한번은 검증용으로 쓰이도록 반복하고 평가결과의 평균을 계산
ㅁ 과소적합(under fitting)
• 학습 데이터의 개체가 부족, 학습이 제대로 되지 않아서 추정된 모델이 학습 데이터에 가깝게 가지 못 한 경우
•학습 데이터에 대해서도 제대로 예측하지 못함
ㅁ 과(잉)적합(over fitting)
•관찰한 데이터를 설명하기 위해 과도하게 복잡한 모델을 학습 했을 때 이모델을 과접합된 모델이라고 지칭
•학습에 활용한 데이터에 대해서만 정답을 잘 맞춤
ㅁ 분류 : Confusion matrix
•실제 데이터의 범주와 예측한 범주 사이의 관계를 보여주는 행렬
ㅁ 회귀 : R-squared
•회귀모형이 얼마나 데이터를 잘 설명하는가?
•적합도, 적합성, Goodness of fit
ㅁ 회귀 : Sum of Squares
•오차제곱의 합
•Squared error = (estimated output-real output)^2 = error^2
•Mean squared error(MSE)
ㅁ Bias and Variance
■ 예측분석 프레임워크