机器学习-算法原理

【原理】决策树分箱原理与实例

作者 : 老饼 发表日期 : 2022-11-21 02:08:40 更新日期 : 2024-10-11 04:17:49
本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com


本文介绍决策树分箱用于连续变量的分箱方法

通过本文,掌握决策树分箱的具体方法、思想和计算实例。




    01. 什么是决策树分箱    




本节讲解什么是决策树分箱,以及决策树分箱的流程




     什么是决策树分箱    


决策树分箱是对连续变量进行自动分箱的一种方法,它属于有监督分箱,即需要有y值
简单来说,决策树分箱就是利用决策树模型进行分箱,
它将需要要分箱的单个变量与y进行CART决策树建模,将最终的树分割结果作为分箱结果
  决策树分箱-实例讲解    
 以下是iris数据:
 
 
要对x1进行分箱,只需要将x1与类别建立决策树,如下
 
 可以看到,只用x1预测类别时,x1的切割点为 [ 5.45,4.85,6.15,5.05,5.75,6.85,6.45]
 整理后就得到以下分箱结果:
 




    决策树分箱流程    


1.  将要分箱的x和对应的y,放到决策树中           
2.  根据目标分箱个数,调整相关的决策树参数    
3.  训练决策树                                                   
4.  提取决策树对x的分割点作为分箱结果            
✍️说明
最终决策树的每个叶子节点,就是一个分箱
sklearn中影响分箱个数(叶子节点)的参数有: 
-------------------------------------------------------------
min_samples_leaf               :叶子节点最小样本数         
min_samples_split              :节点分枝最小样本个数      
max_depth                          :树分枝的最大深度             
min_weight_fraction_leaf   :叶子节点最小权重和         
min_impurity_decrease      :节点分枝最小纯度增长量  
max_leaf_nodes                  :最大叶子节点数                
 ccp_alpha                             :CCP剪枝系数                    










 End 














联系老饼