반응형

/*
-- Title : 데이터마이닝 vs. 예측분석 절차
-- Reference : BDMBA, confusion matrix 매트릭스
*/


■ 데이터마이닝 분석 절차

 

데이터마이닝 수행방법론(CRISP-DM)

/******************************************************************************************************************* -- Title : 데이터마이닝(Data Mining) 수행방법론 -- Reference : BDMBA -- Key word..

dbrang.tistory.com

■ 예측 분석

1. 데이터 준비 및 변수선정

2. 학습과 예측
    •학습(모델 생성)
    •예측(모델 적용)

3. Train/Validation/Test Data set 구성

4. 모델 평가

ㅁ Cross Validation

    𝑘-fold cross-validation은 전체 학습 데이터를 무작위로 𝑘개의 subset으로 나눠서 평가를 수행 
    𝑘개의 subset 중에서 하나를 검증용으로 사용 
    나머지 𝑘−1개의 subset으로 모델을 학습 
    학습된 모델을 검증용으로 따로 떼어 놓았던 subset으로 평가
    이 과정을 모든 𝑘개의 subset이 한번은 검증용으로 쓰이도록 반복하고 평가결과의 평균을 계산

ㅁ 과소적합(under fitting)

    학습 데이터의 개체가 부족, 학습이 제대로 되지 않아서 추정된 모델이 학습 데이터에 가깝게 가지 못 한 경우 
    학습 데이터에 대해서도 제대로 예측하지 못함 

ㅁ 과(잉)적합(over fitting) 

    관찰한 데이터를 설명하기 위해 과도하게 복잡한 모델을 학습 했을 때 이모델을 과접합된 모델이라고 지칭
    학습에 활용한 데이터에 대해서만 정답을 잘 맞춤

ㅁ 분류 : Confusion matrix

    •실제 데이터의 범주와 예측한 범주 사이의 관계를 보여주는 행렬

ㅁ 회귀 : R-squared

    •회귀모형이 얼마나 데이터를 잘 설명하는가?
    •적합도, 적합성, Goodness of fit

ㅁ 회귀 : Sum of Squares

    •오차제곱의 합
    •Squared error = (estimated output-real output)^2 = error^2
    •Mean squared error(MSE)

ㅁ Bias and Variance

■ 예측분석 프레임워크

 

 

반응형

+ Recent posts