老饼讲解-机器学习 机器学习 神经网络 深度学习
机器学习入门
1.学前解惑
2.第一课:初探模型
3.第二课:逻辑回归与梯度下降
4.第三课:决策树
5.第四课:逻辑回归与决策树补充
6.第五课:常见的其它算法
7.第六课:综合应用

【概念】交叉熵是什么

作者 : 老饼 发表日期 : 2023-12-27 21:29:10 更新日期 : 2024-04-06 03:27:55
本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com



交叉熵(Cross Entropy)是信息论中一个重要的概念,用于度量两个概率分布之间的差异

交叉熵也是机器学习中常用的知识点,它通过衡量真实概率与预测概率的差异来评估分类模型的性能

本文讲解什么是交叉熵,交叉熵的计算公式以及作用,并辨析交叉熵与信息熵的区别




   01. 交叉熵的定义与计算公式   



本节介绍信息学中的交叉熵,包括交叉熵的概念和交叉熵的公式



   交叉熵的定义与计算公式   


什么是交叉熵
如果已知 X 有 n 种取值,
我们认为第i种取值的概率为,事实上第i种取值的概率为
则定义在知道X的真实取值时所获得的信息量期望为交叉熵
 什么是交叉熵
 交叉熵的计算公式
 从定义出发,易知,交叉熵的计算公式如下:
 

 其中,
为x取值为时,所获得的信息量
 
香农交叉熵的计算公式
 
特别地,当h取为香农信息量时,称为香农交叉信息熵
香农交叉信息熵的公式如下:

   
✍️备注:交叉熵损失函数就是由交叉熵而来




    交叉熵举例说明    


假设我们开了一个小店,店门口人来人往,
我们以为性别为男、女的概率分别为
但事实上,这条街是女装街,男、女的真实概率分别为
 交叉熵-例子 
那么,来了一个人,
此人是男的概率为,当我们真正知道他是男的时候,带来的信息量为,
                         注意,信息量的计算以主观认为的概率为准,这也就是为什么同一件事对不同的人有不同的信息量
此人是女的概率为,当我们真正知道她是女的时候,带来的信息量为,
期望获得的信息量为
这种在我们认为概率为q,而事实为p时,
 "知道x的真实值"所获得的信息量h的期望就称为x的交叉熵






   02. 交叉熵的意义和作用   



本节介绍交叉熵的用途与意义,籍此更具体地了解交叉熵



   交叉熵的意义与作用-举例   


下面通过交叉熵的两个使用场景,说明交叉熵的意义与用途 
交叉熵作用1:用于评估对事件概率分布的了解程度

在我们的认知分布与真实分布一致,即P(x)=Q(x)的时候,交叉熵是最小的
 此处证明省略,可参考KL距离中的证明
随着我们的认知与真实分布出现偏差越来越大时,交叉熵也越来越大
因此,交叉熵往往用于评估我们对事件的认知的准确程度
交叉熵越大,则说明认知越错误,所以交叉熵越小越好
交叉熵作用2:用于概率模型的质量评估
在机器学习中,概率模型的输出为一个概率分布,
因此,交叉熵经常用于评估概率模型的预测效果的准确程度
这也就是机器学习中的交叉熵损失函数,交叉熵越小,说明模型越准确
 交叉熵损失函数的意义
交叉熵损失函数的通俗意义就是基于模型的认知在了解真实标签时的惊讶程度







   03. 交叉熵与信息熵的辨析   



本节辨析交叉熵与信息熵两者的差异,籍此进一步掌握交叉熵



    交叉熵与信息熵的区别    


交叉熵与信息熵在定义上比较相似,往往对两者的区别并不是那么清晰
下面我们具体地辨析与指出两者的区别,以免混淆它们的使用场景
 

交叉熵与信息熵的定义对比
 
不妨先回顾一下交叉熵与信息熵的定义:
 
 1. 信息熵                                                                                                  
信息熵指的是在客观概率p下,知道真相时所获得的信息量的期望   
 2. 交叉熵                                                                                                
交叉熵指的是在认知的概率q下,知道真相时所获得的信息量的期望
 交叉熵与信息熵的辨析
交叉熵与信息熵看起来很相似,它们都是事件发生时所获得的信息量期望
但其实它们是很不同的两样东西,主要是它们的评估对象不相同
 信息熵与交叉熵的区别
   1. 信息熵的评估对象                                                                              
信息熵的评估对象主要是事件本身,用于评估事件本身的混沌程度
   2. 交叉熵的评估对象                                                                              
交叉熵的评估对象主要是我们对"事件的概率"的认知的准确程度   

  通俗来说,信息熵是描述一件事会带来一个震惊程度,而交叉熵则
描述这个事件会怎么震惊我们,信息熵在描述事件,而交叉熵的焦点在于  
描述我们,信息熵是注定的,不可变的,交叉熵则是可变的,随着我们认  
知的提高,它可以进一步降低                                       





好了,交叉熵就介绍到这里了,相信已经知道交叉熵是什么了吧~






  End  


   



联系老饼