【 1 】评分卡实例-数据分箱处理

作者 : 老饼发表日期 : 2022-06-26 10:25:00 更新日期 : 2025-04-14 03:01:30

本站原创文章，转载请说明来自《老饼讲解-机器学习》www.bbbdata.com

接上文《评分卡实例-问题概述》

前文提要与本文概述

上节我们已经介绍了用于建立评分卡的原始数据，
本文我们讲述制作评分卡的第一步：数据准备
数据准备包括变量的选择和预处理，这一步骤也称为特征工程，
本文讲述评分卡的中如何进行特征工程，它是评分卡中最重要、最耗时的一步

01. 评分卡-变量分箱与选择

本节讲述如何将评分卡实例中的数据进行分箱与选择出可用的变量

变量分箱与选择

在评分卡建模之前，我们需要先对变量进行分析，选择出入模的变量
变量的分析主要包括变量分析、选择与分箱，三者是一起完成的
总的来说，就是将原始变量变散化，并从中选择出与y强相关的变量作为入模变量
变量分析的实际操作流程如下：
1. 将变量进行分箱
2. 使用badRate趋势分析法(或iv法)分析哪些变量可以入模
  其中，badRate法分析过程如下：
1. 检查变量与badRate是否相关，确定该变量是否可以入模
2. 对变量进一步分箱，使变量与badrate的关系更明显
备注：1和2是反复进行的，一边分箱，一边确定要不要该变量

变量分箱与选择-例子(badrate法)

下面通过一个例子，简单了解badrate法是如何对变量进行分箱以及分析的
以rev变量为例，我们先粗略对它进行分箱，试探变量的badRate趋势
  rev变量的初探结果如下：

备注：badrate就是坏客户占比，即该组的坏客户在该组总客户中的占比
可以看到，rev变量的badRate有一定的单调趋势，即随着rev越大，badrate越大
由此可认为rev变量有效，因此我们进一步对rev变量进行精细分箱，使得badrate趋势更明显
  rev变量最终的分箱结果如下：

✍️备注：这里只是简单地讲述rev变量的分箱与分析，具体详细的过程见《》

评分卡实例-变量选择与分箱结果

对所有变量都进行分箱以及分析，并选择出有效的变量来作为入模变量
在本例中，所有变量与badRate都有明显的关系，因此10个变量都有效
完成分箱后，将入模变量根据分箱逻辑，将原始数据转换为分箱数据
转换后的分箱数据如下：

这里我们只是简单的描述和举例说明变量的分析、选择和分析，具体方法和理论参考《评分卡-变量分析部分》

2. 评分卡变量-WOE转换

本节讲解评分卡实例中将变量转为WOE的过程

评分卡WOE转换

通过变量分箱，我们将原数据映射成组号，进一步需要将组号映射为WOE值
直接把组号作为特征变量值是不够理想的，因为组号是等距的，而badrate是不等距的

WOE转换过程
  将组号转换为WOE值的转换过程如下：
1. 计算特征WOE映射表
特征WOE映射表记录特征的各个分组对应的WOE值
特征X第i组的WOE值计算如下：

其中：
      ：坏样本总个数
   ：好样本总个数
     ：坏样本且X为第i组的个数
  ：好样本且X为第i组的个数
2. 将特征取值转换为WOE值
                按照特征WOE映射表，把特征的组别，映射成对应的WOE值即可

WOE转换-举例说明

     下面我们以特征rev转换WOE为例，说明转WOE的过程
1. 计算rev的WOE映射表
       即计算每个组别对应的WOE值，结果如下：

解说：从rev变量的分箱中可知，坏样本1383个，好样本18617个
       而第0组坏样本102个，好样本6188个，因此，第0组的woe为：

2. 将特征取值转换为WOE值
将特征rev的组别按特征WOE映射表，转换成woe数据
转换前后的所有变量数据示例如下：

关于转WOE的必要性

虽然正规则流程里，必须将特征取值转为WOE值，
但在实际项目中，有些老同学并没有转WOE，老饼对这现象总结如下：
可转可不转WOE
如果在分箱阶段，组别是按badRate大小进行编号的，
转WOE对模型最终的效果不是非常明显，有些人会忽略WOE转换，主要嫌麻烦
可转可不转WOE
如果分箱阶段，不按badRate大小进行编号，此时badRate与组别不是单调关系，
这时，必须做 WOE转换，转WOE能使变量与badRate成单调关系

总的来说，我们先选出与客户质量强相关的变量作为入模变量，并将变量分箱离散化

然后再把数据转为WOE，以上工作就形成了评分卡的建模数据,下张文章我们再讲解如何使用这些数据进行建模

End

添加评论