本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
在评分卡中,我们把每个 变量 都处理成分组变量。
如果直接用组号作为 的值,则不够科学。
那每个 应该取何值?我们一般将每组转为WOE,这样更科学。
本文讲解WOE转换与原理推导。
WOE转换 是指将变量X第i组的输入转为:
其中:
: 坏样本总个数
:坏样本且X为第i组的个数
:好样本总个数
: 好样本且X为第i组的个数
计算实例
数据如下
按以下三个步骤,即可算得各个组别的WOE值
(一) 逻辑回归线性部分的意义
逻辑回归模型表达式:
从而有:
其中 我们称为Odds(几率)
我们要确定变量X各个组别的输入取值,
从上式来看,
实际就是X不同组别,
对 带来的增长。
(二) 确定 X的取值给线性部分带来的增量
现对变量 X 讨论。
为方便讨论,我们记为: (1) 式
在没有变量 x参与时:
在我们知道 时,右边的 变为
由贝叶斯原理,可得:
即当知道 这个证据后,
变为 ,
变为
即
则称
为 的证据权重 WOE.
End