请在 下方输入 要搜索的题目:

随机森林如何评估特征重要性?

随机森林如何评估特征重要性?

发布时间:2025-03-20 01:52:31
推荐参考答案 ( 由 快搜搜题库 官方老师解答 )
联系客服
答案:

衡量变量重要性的方法有两种, Decrease GINI 和 Decrease Accuracy:

 

1) Decrease GINI:

对于分类问题(将某个样本划分到某一类),也就是离散变量问题,CART使用  Gini值作为评判标准。定义为Gini=1-∑ (P(i)*P(i)),P(i)为当前节点上数 据集中第i类样本的比例。例如:分为2类,当前节点上有100个样本,属于第一 类的样本有70个,属于第二类的样本有30个,则Gini=1-0.7×07-0.3×03=0.42,可以看出,类别分布越平均,Gini值越大,类分布越不均匀, Gini值越小。在寻找最佳的分类特征和阈值时,评判标准为:argmax(Gini-GiniLeft-GiniRight),即寻找最佳的特征f和阈值th,使得当前节点的Gini值减去左子节点的Gini和右子节点的Gini值最大。


对于回归问题,相对更加简单,直接使用argmax(Var-VarLeft-VarRight)作为评判 标准,即当前节点训练集的方差Var减去减去左子节点的方差VarLeft和右子节点的 方差VarRight值最大。


2) Decrease Accuracy:

对于一棵树Tb(x),我们用OOB样本可以得到测试误差1;然后随机改变OOB样本  的第j列:保持其他列不变,对第j列进行随机的上下置换,得到误差2。至此,我  们可以用误差1-误差2来刻画变量j的重要性。基本思想就是,如果一个变量j足够重要,那么改变它会极大的增加测试误差;反之,如果改变它测试误差没有增大, 则说明该变量不是那么的重要。

专业技术学习
专业技术学习
搜搜题库系统