【实践】使用pytorch的优化器训练一个逻辑回归

作者 : 老饼发表日期 : 2023-12-04 05:46:41 更新日期 : 2024-04-01 17:16:40

本站原创文章，转载请说明来自《老饼讲解-深度学习》www.bbbdata.com

在pytorch中训练一个模型，往往是直接使用pytorch的优化器对模型进行训练

本文简单介绍pytorch的优化器是什么，并展示如何使用pytorch的优化器对模型进行训练

01. pytorch的优化器简介

本节简单介绍pytorch的优化器，并讲述如何使用优化器

什么是pytorch的优化器

在pytorch中训练一个模型，往往是直接使用pytorch的优化器进行训练
优化器指的是pytorch已经写好的一套训练算法
例如常见的SGD(随机梯度下降算法)、LBFGS(拟牛顿法)、Adam等等
对于简单的梯度下降算法，自己手写与调用pytorch的优化器差别不大，
但对于复杂的算法，调用优化器就会方便很多

如何使用pytorch的优化器

使用pytorch的优化器主要包括三个步骤
👉1. 初始化优化器
👉2. 自行更新梯度
👉3. 调用优化器进行参数更新
下面详细介绍使用pytorch优化器时的这三个步骤

优化器的初始化
优化器初始化主要是指出要把哪些参数交给优化器进行优化，及设定优化算法中的超参数
以随机梯度下降SGD为例，初始化一个SGD优化器示例如下：
optimizer = torch.optim.SGD({w,b}, lr=0.01)
其中w和b是我们要优化的参数，而lr则是SGD的超参数-学习率

自行更新梯度
由于优化器更新参数时需要用到参数的梯度，所以需要先自行更新梯度
需要注意的是，pytorch的梯度更新是累加的，因此更新梯度前需要先将梯度清零
为了更方便梯度清零，优化器提供了一次性清零所有参数梯度的方法，如下：
optimizer.zero_grad()
通过zero_grad就会一次性把之前交给优化器管理的参数w和b的梯度都清零

调用优化器进行参数更新
优化器把算法的更新机制进行封装，直接调用就能按算法的机制对参数进行更新
如下，调用下述语句就会利用参数的梯度对参数进行更新
optimizer.step()
以梯度下降为例，optimizer.step()就相当于执行w=w-lr*dw这样的操作

✍️pytorch优化器的使用-总结
根据上述三大步骤的理解，使用优化器优化参数的形式如下：
初始化优化器
for 循环
----清空梯度
----更新梯度
----优化器更新参数

02. pytorch使用优化器训练模型实例

本节展示一个用pytorch的优化器训练一个逻辑回归模型的例子

使用pytorch的优化器训练一个逻辑回归

下面展示如何使用pytorch的优化器训练一个逻辑回归模型
主要就是把《》一文中的训练部分改为使用pytorch的优化器进行参数训练
具体代码如下：

import torch
import matplotlib.pyplot as plt
import numpy as np

# ------训练数据----------------
X = np.array([[2.5, 1.3, 6.2, 1.3, 5.4, 6 ,4.3, 8.2]
                ,[-1.2,2.5,3.6,4,3.4,2.3,7.2,3.9]]).T                   # 样本的输入数据
Y = [0,0,1,0,1,1,1,1]                                                   # 样本的标签
x = torch.tensor(X)                                                     # 将训练数据X转为tensor
y = torch.tensor(Y)                                                     # 将训练数据y转为tensor

#-----------训练模型------------------------
w  = torch.tensor([2,2],dtype=(float),requires_grad=True)               # 初始化模型系数w
b  = torch.tensor([1],dtype=(float),requires_grad=True)                 # 初始化模型系数b
optimizer = torch.optim.SGD({w,b}, lr=0.01)                             # 初始化优化器
for i in range(1000):
    L = (torch.log(1+torch.exp(x@w+b)) -y*(x@w+b)).sum()                # 损失函数
    print('第',str(i),'轮的Loss：',L)                                   # 打印当前损失函数值
    optimizer.zero_grad()                                               # 更新梯度之前先清空梯度
    L.backward()                                                        # 用损失函数更新模型系数的梯度
    optimizer.step()
    
# --------------------画出结果----------------
print('--------最终结果-------')
W  = w.detach().numpy()                                                 # 模型的系数,先转回numpy
B  = b.item()                                                           # 模型的阈值,先转回数值
print('W:',W)                                                           # 打印模型系数W
print('B:',B)                                                           # 打印模型系数B
x1 = X[:,0]                                                             # 绘制分割平面的x轴
x2 = (-B - W[0]*x1)/W[1]                                                # 绘制分割平面的y轴
plt.scatter(X[:, 0], X[:, 1],c=Y)                                       # 绘制样本
plt.plot(x1,x2)                                                         # 绘制分割平面             
plt.axis([min(X[:,0])-1,max(X[:,0])+1,min(X[:,1])-1,max(X[:,1])+1])     # 设置坐标范围
plt.show()                                                              # 展示图象

运行结果

运行结果如下：
第 0 轮的Loss： tensor(23.8272, dtype=torch.float64, grad_fn=<SumBackward0>)
第 1 轮的Loss： tensor(23.2013, dtype=torch.float64, grad_fn=<SumBackward0>)
第 2 轮的Loss： tensor(22.5759, dtype=torch.float64, grad_fn=<SumBackward0>)
.....
第 997 轮的Loss： tensor(0.4918, dtype=torch.float64, grad_fn=<SumBackward0>)
第 998 轮的Loss： tensor(0.4913, dtype=torch.float64, grad_fn=<SumBackward0>)
第 999 轮的Loss： tensor(0.4908, dtype=torch.float64, grad_fn=<SumBackward0>)
--------最终结果-------
W: [1.50026373 1.46529551]
B: 0.7041382734007223

可以看到，逻辑回归模型已成功把样本分为两类，说明训练是成功的

End