机器学习-入门教程

【算法】一篇入门之-二分类指标TPR、TNR、FPR、FNR与F1 Score等

作者 : 老饼 发表日期 : 2022-06-28 13:22:11 更新日期 : 2025-03-30 14:00:37
本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com



二分类模型是机器学习中最常见的模型,用于评估二分类模型的指标特别多

本文介绍二分类模型的四种基本样本以及常用的指标TPR、TNR、FPR、FNR、F1-Score等等

通过本文,可以清晰了解二类分模型有哪些指标,以及各种指标的计算公式和使用领域




     01. 二分类的四种样本     



本节介绍二分类模型中的四个基本样本类型,它是计算各种指标的基础




      二分类中的基本样本类型      


在二分类模型中,根据样本的真实类别与预测类别,分为四种类型:TP、TN、FN、FP:
 TP、TN、FN、FP是什么 
TP (True Positive)     真阳:被判定为正样本,事实上也是正样本(被认为是1,实际也是1)
TN (True Negative)  真阴:被判定为负样本,事实上也是负样本(被认为是0,实际也是0)
FP (False Positive)    假阳:被判定为正样本,事实上却是负样本(被认为是1,实际却是0)
FN (False Negative) 假阴:被判定为负样本,事实上却是正样本(被认为是0,实际却是1)
✍️如何理解正样本
 正样本并不是指好的样本,正样本指的是我们的目标样本
例如在医学中,我们的目标是找出病人,那么病人是正样本,而不是健康的人
例如产品质检中,我们希望找出不合格的产品,那么不合格的产品就是正样本






       02. 二分类的常用评估指标      




二分类模型的常用指标不是很多,但同一个指标在不同领域往往有不同名称

本节按不同的使用领域,介绍二分类模型中的各种常用指标与名称




     第一套:基本统计常用指标     


TPR、FNR、TNR、FPR是4个最基本的常用基础指标,它们的意义分别如下:
        TPR、FNR、TNR、FPR指标是什么
1. TPR(True PositiveRate)                                                                           
 TPR是正样本的预测正确率:预测正确的正样本个数/正样本总个数      
 TPR=TPTP+FN\small \textbf{TPR} = \dfrac{ TP}{TP+FN}               
2. FNR(False NegativeRate)                                                                       
    FNR是正样本的预测错误率:正样本预测为负样本的个数/正样本总个数    
 FNR=FNTP+FN\small\textbf{FNR} = \dfrac{ FN}{TP+FN}              
3. TNR(True NegativeRate)                                                                        
 TNR是负样本的预测正确率:预测正确的负样本个数/负样本总个数      
 TNR=TNTN+FP\small \textbf{TNR} = \dfrac{ TN}{TN+FP}               
4. FPR(False PositiveRate)                                                                          
 FPR是负样本的预测错误率:负样本预测为正样本的个数/负样本总个数  
 FPR=FPTN+FP\small\textbf{FPR} = \dfrac{ FP}{TN+FP}               




      第二套:机器学习指标      


1. 准确率(Accuracy):                                                                                 
 准确率是总样本预测正确的占比:预测正确的样本个数/总样本个数     
               Accuracy=TN+TPTN+TP+FN+FP\small \textbf{Accuracy} = \dfrac{ TN+TP}{TN+TP+FN+FP} 
2. 错误率(Error rate)                                                                                
 错误率是总样本预测错误的占比:预测错误的样本个数/总样本个数     
         
Error rate=FN+FPTN+TP+FN+FP\small \textbf{Error rate} = \dfrac{ FN+FP}{TN+TP+FN+FP}
3. 召回率(Recall)                                                                                     
 召回率是正样本的预测正确率:预测正确的正样本个数/正样本总个数    
                Recall=TPR=TPTP+FN\small \textbf{Recall} = \textbf{TPR} = \dfrac{ TP}{TP+FN}             
4. 精确率(Precision)                                                                                
                          精确率是预测为正的样本的准确率:预测为正且真实为正的样本个数/预测为正的样本个数
               Precision=TPTP+FP\small \textbf{Precision} = \dfrac{ TP}{TP+FP}                     

5. F值(F-Measure或F-Score)                                                                  
                     F=(α2+1)PrecisionRecallα2(Precision+Recall)\textbf{F} = \dfrac{(\alpha^2+1)*\textbf{Precision}*\textbf{Recall}}{\alpha^2(\textbf{Precision}+\textbf{Recall})}
6. F1值(F1-Score)                                                                                   
 F1-Score是F-Score取α=1\alpha=1时的值,如下:                       
                        F1- Score=2PrecisionRecallPrecision+Recall\textbf{F1- Score} = \dfrac{2*\textbf{Precision}*\textbf{Recall}}{\textbf{Precision}+\textbf{Recall}}





      第三套:信息检索指标     


          在信息检索上常用的指标为查准率、误检率、查全率与漏检率,如下:
                 查准率、误检率、查全率与漏检率
1. 查准率                                                                                                     
                         查准率是预测为正的样本的准确率:预测为正且真实为正的样本个数/预测为正的样本个数
         查准率=Precision=TPTP+FP\small 查准率 = \textbf{Precision} = \dfrac{ TP}{TP+FP}
2. 误检率                                                                                                     
                      误检率是预测为正的样本的错误率:预测为正但实为负的样本个数/预测为正的样本个数
误检率=FPTP+FP\small 误检率= \dfrac{ FP}{TP+FP}            
3. 查全率                                                                                                     
  查全率是正样本的预测正确率:预测正确的正样本个数/正样本总个数    
   查全率=TPR=TPTP+FN\small 查全率 = \textbf{TPR} = \dfrac{ TP}{TP+FN}

4. 漏检率                                                                                                     
  漏检率是正样本的预测错误率:正样本预测为负样本的个数/正样本总个数
   漏检率=FNR=FNTP+FN\small 漏检率 =\textbf{FNR} = \dfrac{ FN}{TP+FN} 





       第四套:故障检测指标       


漏警率与虚警率
1. 检出率(DR,Detection Rate)                                                              
         检出率是预测为正的样本在总样本中的占比:预测为正的样本个数/总样本个数
 DR=FP+TPTN+TP+FN+FP\small \textbf{DR} = \dfrac{ FP+TP}{TN+TP+FN+FP} 

2. 漏警率(MAR,Missing Alarm Rate)                                                    
       漏警率是正样本的预测错误率:正样本预测为负样本的个数/正样本总个数   
MAR=FNR=FNTP+FN\small \textbf{MAR}= \textbf{FNR}= \dfrac{FN}{TP+FN}
3. 虚警率(FAR,False Alarm Rate)                                                          
 虚警率是负样本的预测错误率:负样本预测为正样本的个数/负样本总个数
 FAR=FPR=FPTN+FP\small\textbf{FAR} =\textbf{FPR} = \dfrac{ FP}{TN+FP}  





      第五套:生信指标     


下面是生信、医学上常用的相关指标:
1. 真阳性率(TPR):参见TPR                                                                      
2. 假阴性率(FNR):参见FNR                                                                     
3. 真阴性率(TNR):参见TNR                                                                     
4. 假阳性率( FPR):参见FPR                                                                     
5. 灵敏度(Sensitive)                                                                                
 灵敏度是正样本的预测正确率:预测正确的正样本个数/正样本总个数    
         Sensitive=TPR=TPTP+FN\small \textbf{Sensitive} =\textbf{TPR} = \dfrac{ TP}{TP+FN}
6. 特效度(Specificity)                                                                              
 特效度是负样本的预测正确率:预测正确的负样本个数/负样本总个数    
               Specificity=TNR=TNTN+FP\small \textbf{Specificity}=\textbf{TNR} = \dfrac{ TN}{TN+FP}   











 End 








图标 评论
暂末有评论哦
添加评论