答案:随机森林:利用了随机采样,对数据样本和特征进行抽样,训练出多个树分类器,避免了每树对所有样本及所有特征的学习,从而增加了随机性,避免了过拟合
1)对训练样本数据进行有放回的抽样,生成K棵分类回归树
2)假设特征空间有n个特征,每棵树的节点处随机抽取m个特征(m < n)
3)使每棵树最大限度生长,不做任何剪枝
4)通过多棵树组成森林,分类结果按树分类器投票多少决定。
- Xgboost:
- 本质上还是GBDT算法:
- 相对于GBDT的改进:
- 使用了L1、L2正则化,防止过拟合
- 对代价函数一阶、二阶求导,使得收敛更快
- 树生长完全后从底部向上剪枝,防止了算法贪婪