一 . 概述
集成方法是将多个模型组合起来获得更好的模型的一种方法。一般分为 bagging 和 boosting。
二 . 所属分类
集成方法属于 监督学习。
三 . bagging
装袋算法, 对多个模型的结果投票,平均等方式获得结果。
代表算法:
1 . 随机森林 (Random Forests)
随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
四 . boosting。
提升方法
多个弱分类器组合成一个强分类器的算法,通常给不同的弱分类器不同的权重。数据会被重新加权。
代表算法:
1 . AdaBoost
自适应增强
AdaBoost方法的自适应在于:前一个分类器分错的样本会被用来训练下一个分类器。
其中权重计算公式
例子1
2
3
4
5
6
7from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
model = AdaBoostClassifier(base_estimator = DecisionTreeClassifier(max_depth=2), n_estimators = 4) # base_estimator 选择的弱模型,n_estimators 模型的数量
model.fit(x_train, y_train)
model.predict(x_test)