本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
随机森林一般可以用袋外错误率来评估模型的泛化能力
本文介绍什么是袋外错误率,并讲解具体的计算方法
本节讲解什么是随机森林的袋外错误率obb-error
什么是袋外错误率
随机森林的袋外错误率obb(out-of-bag)-error是一个用来评估森林泛化能力的指标
在解释袋外错误率前,不妨先介绍袋外样本和袋外预测的概念
袋外样本
由于随机森林的每棵树在训练时都只用了一部分样本,
其它未参与训练的样本就称为该树的袋外样本
袋外预测
袋外预测是指,每个样本只用森林中该样本不参与训练的树所构成的子森林来对样本进行预测
袋外错误率
袋外错误率则是指样本在袋外预测的方式下的错误占比
由于袋外预测时子森林使用的是袋外样本,
所以袋外错误率就可以作为评估整个森林的泛化能力
随机森林正是通过袋外错误率来巧妙地评估整个森林的泛化能力,
而无需像其它模型那样,额外预留检验样本来评估模型的泛化能力
本节讲解袋外错误率的具体计算方法
随机森林袋外错误率的计算方法
随机森林袋外错误率obb-error的计算方法分为三步
👉1.计算样本袋外预测的类别
👉2.计算样本袋外的预测准确率
👉3.计算样本袋外的错误率
袋外样本的类别预测
袋外样本的类别预测,是指用所有该样本未参与训练的树对其进行概率预测,
汇总所有树对该样本的预测结果(概率之和归一化后的值)
最后哪个类别的概率大,就认为袋外预测类别是哪个
具体示例如下:
袋外准确率与错误率的计算方法
袋外准确率,也称为袋外评分(obb_socre), 计算公式如下:
n是样本个数,k是袋外预测正确的个数
袋外错误率则如下:
End