逻辑回归-应用教程

【原理】逻辑回归模型-损失函数的梯度公式与推导

作者 : 老饼 发表日期 : 2022-11-21 01:57:01 更新日期 : 2025-06-03 15:23:12
本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com



在使用梯度下降法求解逻辑回归时,需要用来逻辑回归损失函数的梯度公式

本文讲解逻辑回归损失函数的梯度公式,以及梯度公式的详细推导过程

通过本文,可以知道逻辑回归损失函数的梯度公式以及它的是如何推导出来的





   01. 逻辑回归-梯度公式与推导 




本节讲解逻辑回归损失函数的梯度公式,以及推导过程





     逻辑回归损失函数-梯度公式     


逻辑回归的损失函数为:
 
L(W)=lnP=i=1N[yiXiWln(1+eXiW)]L(W) = \ln P = \displaystyle \sum\limits _{i=1}^{N} \left [ \text{y}_iX_iW-\ln(1+e^{X_iW}) \right ]  

 逻辑回归损失函数的梯度公式如下:
 
L(W)W=XT(yp)\displaystyle \dfrac{\partial L(W)}{\partial W} = X^T(\text{y}-p)      
 
其中
 
X\small XN×M\small N\times M矩阵, N样本数, M为特征个数         
   即一行为一个样本,一列为一特征       
 
y\text{y}N×1\small N\times 1的列向量                                         
 ppN×1\small N\times 1的列向量,   p=11+eXW\small p = \dfrac{1}{1+e^{-XW}}            
 p实际就是逻辑回归模型的预测值   






      逻辑回归损失函数-梯度公式的推导过程     


逻辑回归的损失函数的梯度(即一阶偏导)推导过程如下: 
 
 一、单个分量的偏导                                                                                       
 由于逻辑回归的损失函数为:                                    
  L(W)=lnP=i=1N[yiXiWln(1+eXiW)]L(W) = \ln P = \displaystyle \sum\limits _{i=1}^{N} \left [ \text{y}_iX_iW-\ln(1+e^{X_iW}) \right ]            
 它对单个分量Wj\small W_j 的偏导:                                      
L(W)Wj=i=1N[yiXiWln(1+eXiW)]Wj\dfrac{\partial L(W)}{\partial W_j} = \dfrac{\partial \sum\limits _{i=1}^{N} \left [ \text{y}_iX_iW-\ln(1+e^{X_iW}) \right ] }{\partial W_j}                       
=i=1N(yi(Xi)j(Xi)jeXiW1+eXiW)= \displaystyle\sum\limits _{i=1}^{N} \left ( \text{y}_i(X_i)_j -\dfrac{(X_i)_je^{X_iW}}{1+e^{X_iW}} \right )           
          (Xi)j\small (X_i)_j 代表 第i个样本第j个特征的 x 数据
 
     =i=1N(yi1eXiW+1)(Xi)j= \displaystyle\sum\limits _{i=1}^{N} \left ( \text{y}_i -\dfrac{1}{e^{-X_iW}+1} \right ) (X_i)_j                
                 =i=1N(yipi)(Xi)j= \displaystyle \sum \limits _{i=1}^{N}\left ( \text{y}_i-p_i \right ) (X_i)_j  // pi=11+eXiWp_i = \dfrac{1}{1+e^{-X_iW}}            
              ---- 用矩阵形式替换连加形式 -----------
 =(Xj)T(yp)= (X_{j列})^T(\text{y}-p)                                   
  这里的  Xj\small X_{j列}​  即第j个特征的数据  
  二、整体的偏导                                                                                              
 根据单个分量的偏导形式,可得到整体偏导如下:                 
   
 
L(W)W=XT(yp)\displaystyle \dfrac{\partial L(W)}{\partial W} = X^T(\text{y}-p)      
其中
 
X\small XN×M\small N\times M矩阵, N样本数, M为特征个数         
   即一行为一个样本,一列为一特征       
 
y\text{y}N×1\small N\times 1的列向量                                         
 ppN×1\small N\times 1的列向量,   p=11+eXW\small p = \dfrac{1}{1+e^{-XW}}            
  由此即可得到逻辑回归损失函数的梯度公式~                       







好了,以上就是逻辑回归损失函数的梯度推导了~









 End 




图标 评论
添加评论