【原理】决策树分箱原理与实例

作者 : 老饼发表日期 : 2022-11-21 02:08:40 更新日期 : 2022-11-21 02:08:40

本站原创文章，转载请说明来自《老饼讲解-机器学习》www.bbbdata.com

本文介绍决策树分箱用于连续变量的分箱方法

通过本文，掌握决策树分箱的具体方法、思想和计算实例。

简介与思想

决策树分箱较为简单，主要是利用了决策树模型。

它的主要思想是将要分箱的单变量与y进行CART决策树建模,
将最终的树分割结果作为分箱结果。

实例讲解

以下是经典的iris数据：

要对x1进行分箱，
只需要将x1与类别建立决策树，
如下

可以看到，只用x1预测类别时，
x1的切割点为 [ 5.45,4.85,6.15,5.05,5.75,6.85,6.45],

整理后就得到以下分箱结果:

流程

1.  将要分箱的x和对应的y，放到决策树中
2.  根据目标分箱个数，调整相关的决策树参数
3.  训练决策树
4.  提取决策树对x的分割点作为分箱结果

✍️说明
最终决策树的每个叶子节点，就是一个分箱。
sklearn中影响分箱个数(叶子节点)的参数有：
-------------------------------------------------------------
min_samples_leaf               ：叶子节点最小样本数
min_samples_split              ：节点分枝最小样本个数
max_depth                          ：树分枝的最大深度
min_weight_fraction_leaf   ：叶子节点最小权重和
min_impurity_decrease      ：节点分枝最小纯度增长量
max_leaf_nodes                  ：最大叶子节点数
ccp_alpha                             ：CCP剪枝系数

End