/*
-- Title : Ensemble(앙상블) 모델링의 이해
-- Reference : BDMBA, googling, bric.co.kr
-- Tag : enemble model meta modeling combine modeling stacking 메타모델링 컴바인모델링 bagging boosting 배깅 붓스트랩 부스팅 boostrap 부트스트랩 앙상블모델링 앙상블 모델링
*/
■ 앙상블 모델
• 메타 모델링, 컴바인 모델링, 스태킹이라고도 불림
• "Two heads are better than one"에서 출발
• 서로 다른 모델들을 조합해서 최고의 성능을 내는 모델 생성
• Regression, Decision Tree, Neureal Networks은 물론 SVM, Random Forest, KNN 등 다양한 알고리즘 사용
• 서로의 장점은 취하고 약점은 보완
■ 앙상블 목적 및 장단점
• 다양한 모형의 예측 결과를 결합하여 단일 보형보다 신뢰성 높은 예측값 획득
• 앙상블 사용시 이상치에 대한 대응력 상승, 전체적인 분산 감소로 정분류율 높임
• 모형의 투명성이 떨어져 현상에 대한 원인 분석시 부적합
■ 앙상블 조건
• 각각의 분류기는 상호 독립적
• 각 분류기의 오분류율은 적어도 50%보다 낮아야 함
• 일반적으로 독립성 조건의 경우 만족하지 않아도 예측력은 높아지는 것으로 알려짐
■ 앙상블 모형의 종류
• 데이터를 조정하는 방법
- 적절한 표본추출 방법을 활용하여 여러 개의 훈련용 데이터 집합을 생성함
- 각각의 데이터 집합을 활용하여 여러 개의 분류기를 생성하여 앙상블을 진행(Bagging, Boosting)
• 변수의 개수를 조절하는 방법(Random Forest)
- 전체 변수집합에서 부분 변수집합을 선택하여 훈련용 데이터 생성
- 각각의 데이터 집합에 대해 분류기를 생성한 후 앙상블을 진행
• 집단명을 조절하는 방법
- 집단의 종류가 많은 경우 소수의 집단만으로 묶어서 분류
- 각 집단에 소속되는지에 대한 여부만 분류하는 분류기를 생성하여 앙상블 모형에 적용
• 분류모형의 가정을 조절하는 방법
- 하나의 분류모형은 모수에 대한 가정 또는 알고리즘에 대한 가정에 따라 상이해짐
- 모수 및 가정을 변경하여 여러 개의 모형을 생성하여 앙상블을 진행
Ensemble(앙상블) 모델링의 이해
2019. 7. 23. 17:33
반응형
반응형