들어가며
모델이라고 하면 데이터 $ X $ 를 input으로 하나의 모델 $ F(X) $ 를 만드는 방법을 말한다.
위와 같은 과정에서 집중되는 과정은 $ f(X) $를 어떻게 만드는지가 주 관심사가 된다.
그런데 한가지 모델이 아니라 여러 가지 모델 $f_1(X),f_2(X),f_3(X),f_4(X),f_5(X), ...$ 을 만들고 또 그것들을 어떻게 조합하는 방법에 집중한 ML 모델이 앙상블 모델이라고 한다.
여러 모델을 조합하여 한가지 모델로 통합하는 방법을 다루는 것이 앙상블 모델이다.
이때 재료가 되는 모델들 (Base Learner라고한다) 을 어떻게 조합 할 지가 주요 주제가 되는데
그 방식에는 사람들의 상상력 만큼 많은 방법들이 존재하기 때문에
앙상블 기법에는 수많은 기법들이 존재 하고 생겨나고 있다.
(그러나 "좋은" 앙상블 기법과 "나쁜" 앙상블 기법은 존재한다.)
앙상블 모델은 기존에 있는 모델들을 조합하는 것 만으로도 Over fitting이나 예측력 등을 놀라울 정도로 향상시킬 가능성이 있기 때문에 실제 모델에서도 많이 쓰이고 있다.
앙상블 기법의 많은 모델이 규칙성이 없어 보이지만 항상 2가지 단계는 갖는다는 공통점이 있다.
1. Base learner들을 만든다.
2. Base learner들을 조합한다.
최소한 위의 2가지의 단계를 필수적으로 가지고 있다
또한 앙상블 기법의 탄생 또한 2가지 방법들 중 하나에 변형이 있을때 마다 하나씩 생기게 된다.
모든 앙상블 기법들을 소개 할 수는 없기 때문에 기본이 되는 앙상블 기법들을 소개 할 예정이다.
Ensemble Model의 종류
- Bayes optimal classifier
- Bootstrap aggregating (Bagging)
- Boosting
- Bayesian model averaging
- Bayesian model combination
- Bucket of models
- Stacking
반응형