pytorch中的优化器optimizer.param_groups用法

2025-03-01 00:40:11

optimizer.param_groups：是长度为2的list，其中的元素是2个字典；

optimizer.param_groups[0]：长度为6的字典，包括[‘amsgrad', ‘params', ‘lr', ‘betas', ‘weight_decay', ‘eps']这6个参数；

optimizer.param_groups[1]：好像是表示优化器的状态的一个字典；

import torch
import torch.optim as optimh2
w1 = torch.randn(3, 3)
w1.requires_grad = True
w2 = torch.randn(3, 3)
w2.requires_grad = True
o = optim.Adam([w1])
print(o.param_groups)

[{'amsgrad': False,
  'betas': (0.9, 0.999),
  'eps': 1e-08,
  'lr': 0.001,
  'params': [tensor([[ 2.9064, -0.2141, -0.4037],
           [-0.5718,  1.0375, -0.6862],
           [-0.8372,  0.4380, -0.1572]])],
  'weight_decay': 0}]

Per the docs, the add_param_group method accepts a param_group parameter that is a dict. Example of use:h2import torch
import torch.optim as optimh2
w1 = torch.randn(3, 3)
w1.requires_grad = True
w2 = torch.randn(3, 3)
w2.requires_grad = True
o = optim.Adam([w1])
print(o.param_groups)
givesh2[{'amsgrad': False,
  'betas': (0.9, 0.999),
  'eps': 1e-08,
  'lr': 0.001,
  'params': [tensor([[ 2.9064, -0.2141, -0.4037],
           [-0.5718,  1.0375, -0.6862],
           [-0.8372,  0.4380, -0.1572]])],
  'weight_decay': 0}]
nowh2o.add_param_group({'params': w2})
print(o.param_groups)

[{'amsgrad': False,
  'betas': (0.9, 0.999),
  'eps': 1e-08,
  'lr': 0.001,
  'params': [tensor([[ 2.9064, -0.2141, -0.4037],
           [-0.5718,  1.0375, -0.6862],
           [-0.8372,  0.4380, -0.1572]])],
  'weight_decay': 0},
 {'amsgrad': False,
  'betas': (0.9, 0.999),
  'eps': 1e-08,
  'lr': 0.001,
  'params': [tensor([[-0.0560,  0.4585, -0.7589],
           [-0.1994,  0.4557,  0.5648],
           [-0.1280, -0.0333, -1.1886]])],
  'weight_decay': 0}]

# 动态修改学习率
for param_group in optimizer.param_groups:
    param_group["lr"] = lr
# 得到学习率optimizer.param_groups[0]["lr"] h2# print('查看optimizer.param_groups结构：')
# i_list=[i for i in optimizer.param_groups[0].keys()]
# print(i_list)
['amsgrad', 'params', 'lr', 'betas', 'weight_decay', 'eps']

补充：pytorch中的优化器总结

以SGD优化器为例：

# -*- coding: utf-8 -*-
#@Time    :2019/7/3 22:31
#@Author  :XiaoMa

from torch import nn as nn
import torch as t
from torch.autograd import Variable as V
#定义一个LeNet网络
class Net(nn.Module):
    def __init__(self):
        super(Net,self).__init__()
        self.features=nn.Sequential(
            nn.Conv2d(3,6,5),
            nn.ReLU(),
            nn.MaxPool2d(2,2),
            nn.Conv2d(6,16,5),
            nn.ReLU(),
            nn.MaxPool2d(2,3)
        )

        self.classifier=nn.Sequential(\
            nn.Linear(16*5*5,120),
            nn.ReLU(),
            nn.Linear(120,84),
            nn.ReLU(),
            nn.Linear(84,10)
            )
    def forward(self, x):
        x=self.features(x)
        x=x.view(-1,16*5*5)
        x=self.classifier(x)
        return x
net=Net()

from torch import optim #优化器
optimizer=optim.SGD(params=net.parameters(),lr=1)
optimizer.zero_grad()   #梯度清零，相当于net.zero_grad()

input=V(t.randn(1,3,32,32))
output=net(input)
output.backward(output)     #fake backward
optimizer.step()    #执行优化

#为不同子网络设置不同的学习率，在finetune中经常用到
#如果对某个参数不指定学习率，就使用默认学习率
optimizer=optim.SGD(
    [{'param':net.features.parameters()},    #学习率为1e-5
    {'param':net.classifier.parameters(),'lr':1e-2}],lr=1e-5
)

#只为两个全连接层设置较大的学习率，其余层的学习率较小
special_layers=nn.ModuleList([net.classifier[0],net.classifier[3]])
special_layers_params=list(map(id,special_layers.parameters()))
base_params=filter(lambda p:id(p) not in special_layers_params,net.parameters())

optimizer=t.optim.SGD([
    {'param':base_params},
    {'param':special_layers.parameters(),'lr':0.01}
],lr=0.001)

调整学习率主要有两种做法。

一种是修改optimizer.param_groups中对应的学习率，另一种是新建优化器（更简单也是更推荐的做法），由于optimizer十分轻量级，构建开销很小，故可以构建新的optimizer。

但是新建优化器会重新初始化动量等状态信息，这对使用动量的优化器来说（如自带的momentum的sgd），可能会造成损失函数在收敛过程中出现震荡。

如：

#调整学习率，新建一个optimizer
old_lr=0.1
optimizer=optim.SGD([
                {'param':net.features.parameters()},
                {'param':net.classifiers.parameters(),'lr':old_lr*0.5}],lr=1e-5)

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。

pytorch 优化器(optim)不同参数组,不同学习率设置的操作

optim 的基本使用 for do: 1. 计算loss 2. 清空梯度 3. 反传梯度 4. 更新参数 optim的完整流程 cifiron = nn.MSELoss() optimiter = torch.optim.SGD(net.parameters(),lr=0.01,momentum=0.9) for i in range(iters): out = net(inputs) loss = cifiron(out,label) optimiter.zero_grad() # 清空之前
详解PyTorch批训练及优化器比较

一.PyTorch批训练 1. 概述 PyTorch提供了一种将数据包装起来进行批训练的工具--DataLoader.使用的时候,只需要将我们的数据首先转换为torch的tensor形式,再转换成torch可以识别的Dataset格式,然后将Dataset放入DataLoader中就可以啦. import torch import torch.utils.data as Data torch.manual_seed(1) # 设定随机数种子 BATCH_SIZE = 5 x = torch.li
pytorch 实现在一个优化器中设置多个网络参数的例子

我就废话不多说了,直接上代码吧! 其实也不难,使用tertools.chain将参数链接起来即可 import itertools ... self.optimizer = optim.Adam(itertools.chain(self.encoder.parameters(), self.decoder.parameters()), lr=self.opt.lr, betas=(self.opt.beta1, 0.999)) ... 以上这篇pytorch 实现在一个优化器中设置多个网络参数的
浅谈Pytorch torch.optim优化器个性化的使用

一.简化前馈网络LeNet import torch as t class LeNet(t.nn.Module): def __init__(self): super(LeNet, self).__init__() self.features = t.nn.Sequential( t.nn.Conv2d(3, 6, 5), t.nn.ReLU(), t.nn.MaxPool2d(2, 2), t.nn.Conv2d(6, 16, 5), t.nn.ReLU(), t.nn.MaxPool2d(2
在pytorch中动态调整优化器的学习率方式

在深度学习中,经常需要动态调整学习率,以达到更好地训练效果,本文纪录在pytorch中的实现方法,其优化器实例为SGD优化器,其他如Adam优化器同样适用. 一般来说,在以SGD优化器作为基本优化器,然后根据epoch实现学习率指数下降,代码如下: step = [10,20,30,40] base_lr = 1e-4 sgd_opt = torch.optim.SGD(model.parameters(), lr=base_lr, nesterov=True, momentum=0.9) de
pytorch中的优化器optimizer.param_groups用法

optimizer.param_groups: 是长度为2的list,其中的元素是2个字典: optimizer.param_groups[0]: 长度为6的字典,包括['amsgrad', 'params', 'lr', 'betas', 'weight_decay', 'eps']这6个参数: optimizer.param_groups[1]: 好像是表示优化器的状态的一个字典: import torch import torch.optim as optimh2 w1 = torch.r
PyTorch中model.zero_grad()和optimizer.zero_grad()用法

废话不多说,直接上代码吧~ model.zero_grad() optimizer.zero_grad() 首先,这两种方式都是把模型中参数的梯度设为0 当optimizer = optim.Optimizer(net.parameters())时,二者等效,其中Optimizer可以是Adam.SGD等优化器 def zero_grad(self): """Sets gradients of all model parameters to zero.""
python人工智能tensorflowtf优化器Optimizer算法汇总

目录前言 tensorflow常见的Optimizer 1 梯度下降法 2 Adagrad下降法 3 动量优化法 4 RMSProp算法 5 Adam算法例子 1 梯度下降法 2 Adagrad下降法 3 动量优化法 4 RMSProp算法 5 Adam算法总结前言优化器的选择关乎参数更新的方法,合理的方法可以帮助机器学习更好的寻找到全局最佳值.那我们快点开始学习吧 tensorflow常见的Optimizer 1 梯度下降法 tf.train.GradientDescentOptim
Java Swing中JTable渲染器与编辑器用法示例

本文实例讲述了Java Swing中JTable渲染器与编辑器用法.分享给大家供大家参考,具体如下: JTable的内容.外观.事件响应在很大程度上是由渲染器与编辑器控制的.具体说来,渲染器负责单元格的外观比如前景色.背景色,以及单元格提示:编辑器负责单元格的内容和事件响应.编辑器默认为文本框形式,也可以使用下拉菜单.按钮.单选按钮等形式.下面通过一个demo程序来说明渲染器与编辑器的基本用法. JButtonTableExample.java package awtDemo; import j
深入了解MySQL中索引优化器的工作原理

目录本文导读一.MySQL 优化器是如何选择索引的 1.MySQL数据库组成 2.MySQL数据库成本计算二.MySQL查询成本三.SELECT 执行过程总结本文导读本文将解读MySQL数据库查询优化器(CBO)的工作原理.简单介绍了MySQL Server的组成,MySQL优化器选择索引额原理以及SQL成本分析,最后通过 select 查询总结整个查询过程. 一.MySQL 优化器是如何选择索引的下面我们来看这张表,SUB_ODR_ID字段创建了相关的 2 个索引,根据我们前面
Vue中侦听器的基本用法示例

目录前言一.侦听器的基本用法二.侦听器的格式三.实现刚进入页面就触发监听和深度监听深度监听深度监听返回侦听对象子属性的值最后前言 Vue 通过 watch 选项提供了一个更通用的方法,来响应数据的变化.当需要在数据变化时执行异步或开销较大的操作时,这个方式是最有用的. 一.侦听器的基本用法 <div id="demo">{{ fullName }}</div> var vm = new Vue({ el: '#demo', data: { fir
聊聊pytorch中Optimizer与optimizer.step()的用法

当我们想指定每一层的学习率时: optim.SGD([ {'params': model.base.parameters()}, {'params': model.classifier.parameters(), 'lr': 1e-3} ], lr=1e-2, momentum=0.9) 这意味着model.base的参数将会使用1e-2的学习率,model.classifier的参数将会使用1e-3的学习率,并且0.9的momentum将会被用于所有的参数. 进行单次优化所有的optimiz

pytorch中的优化器optimizer.param_groups用法

以SGD优化器为例：

调整学习率主要有两种做法。

相关推荐

随机推荐