/*
-- Title : 배깅(bagging)의 이해
-- Reference :BDMBA, www.birc.co.kr, m.blog.naver.com/muzzincys, swalloow.github.io
-- Tag : 배깅 부트스트랩 bagging bootstrap 앙상블 ensemble
*/
■ 배깅(bagging)
• boostrap aggregating의 준말
• 주어진 데이터에 대해서 여러 개의 부트스트랩(bootstrap) 데이터를 모델링한 후
결합하여 최종의 예측 모델을 생성하는 방법
• 부트스트랩 데이터란 단순 복원 임의 추출법을 통해 원 데이터로부터 크기가 동일한
여러 개의 표본데이터를 의미
• 일반적인 모델을 만들어 모델의 안정성을 높히는데 주목적
• 아래에서 Sample = Bootstrap Sample
■ 배깅의 목적
• 예측 모형의 변동성이 큰 경우 예측 모형의 변동성을 감소시키기 위해 사용
• 원 자료로부터 여러 번의 복원 샘플링을 통해 예측 모형의 분산을 최소화하여 예측력 향상
• 과적합된 모형, 편의가 작고 분산이 큰 모형에 적합
- 높은 bias로 인한 underfitting
- 높은 variance로 인한 overfitting
■ 배깅의 절차
• Rawdata에서 bootstrap 데이터 추출
• 추출을 반복하여 n개의 데이터 생성
• 각 데이터를 각각 모델링하여 모델 생성
• 단일 보델을 결합하여 배깅 모델 생성
■ 배깅 vs. 앙상블
• 기존 앙상블의 경우 하나의 전체 데이터만 대상으로 다양하 부류기 실행
• 배갱의 경우 전체 데이터를 여러번 복원추출(bootstrap)된 샘플 데이터를 대상으로 분류기 실행
• 여러 샘플 데이터를 대상으로 분류기를 실행하여 정확도 향상
■ 배깅 과정