반응형

/*
-- Title : Ensemble(앙상블) 모델링의 이해
-- Reference : BDMBA, googling, bric.co.kr
-- Tag : enemble model meta modeling combine modeling stacking 메타모델링 컴바인모델링 bagging boosting 배깅 붓스트랩 부스팅  boostrap 부트스트랩 앙상블모델링 앙상블 모델링
*/ 

■ 앙상블 모델
    • 메타 모델링, 컴바인 모델링, 스태킹이라고도 불림
    • "Two heads are better than one"에서 출발
    • 서로 다른 모델들을 조합해서 최고의 성능을 내는 모델 생성
    • Regression, Decision Tree, Neureal Networks은 물론 SVM, Random Forest, KNN 등 다양한 알고리즘 사용
    • 서로의 장점은 취하고 약점은 보완


■ 앙상블 목적 및 장단점
    • 다양한 모형의 예측 결과를 결합하여 단일 보형보다 신뢰성 높은 예측값 획득
    • 앙상블 사용시 이상치에 대한 대응력 상승, 전체적인 분산 감소로 정분류율 높임
    • 모형의 투명성이 떨어져 현상에 대한 원인 분석시 부적합


■ 앙상블 조건

    • 각각의 분류기는 상호 독립적
    • 각 분류기의 오분류율은 적어도 50%보다 낮아야 함
    • 일반적으로 독립성 조건의 경우 만족하지 않아도 예측력은 높아지는 것으로 알려짐



■ 앙상블 모형의 종류
    • 데이터를 조정하는 방법
        - 적절한 표본추출 방법을 활용하여 여러 개의 훈련용 데이터 집합을 생성함
        - 각각의 데이터 집합을 활용하여 여러 개의 분류기를 생성하여 앙상블을 진행(Bagging, Boosting)

    • 변수의 개수를 조절하는 방법(Random Forest)
        - 전체 변수집합에서 부분 변수집합을 선택하여 훈련용 데이터 생성
        - 각각의 데이터 집합에 대해 분류기를 생성한 후 앙상블을 진행

    • 집단명을 조절하는 방법
        - 집단의 종류가 많은 경우 소수의 집단만으로 묶어서 분류
        - 각 집단에 소속되는지에 대한 여부만 분류하는 분류기를 생성하여 앙상블 모형에 적용

    • 분류모형의 가정을 조절하는 방법
        - 하나의 분류모형은 모수에 대한 가정 또는 알고리즘에 대한 가정에 따라 상이해짐
        - 모수 및 가정을 변경하여 여러 개의 모형을 생성하여 앙상블을 진행


반응형

+ Recent posts