python人工智能tensorflowtf优化器Optimizer算法汇总

2025-06-03 18:22:39

前言

优化器的选择关乎参数更新的方法，合理的方法可以帮助机器学习更好的寻找到全局最佳值。
那我们快点开始学习吧

tensorflow常见的Optimizer

1 梯度下降法

tf.train.GradientDescentOptimizer(learning_rate, use_locking=False, name='GradientDescent')

常用参数为学习率learning_rate。

使用梯度下降算法的Optimizer，容易陷入局部最优解。

2 Adagrad下降法

tf.train.AdagradOptimizer(learning_rate, initial_accumulator_value=0.1, use_locking=False,name='Adagrad')

常用的参数为学习率learning_rate。

使用Adagrad算法的Optimizer，独立地适应所有模型参数的学习率，缩放每个参数反比于其所有梯度历史平均值总和的平方根。具有代价函数最大梯度的参数相应地有个快速下降的学习率，而具有小梯度的参数在学习率上有相对较小的下降。

Adagrad 的主要优势在于不需要人为的调节学习率，它可以自动调节；缺点在于，随着迭代次数增多，学习率会越来越小，最终会趋近于0。

3 动量优化法

tf.train.MomentumOptimizer.__init__(learning_rate, momentum, use_locking=False, name='Momentum', use_nesterov=False)

常用的参数 learning_rate，momentum，use_nesterov使用Momentum算法的Optimizer使用动量(Momentum)的随机梯度下降法(SGD)，主要思想是引入一个积攒历史梯度信息动量来加速SGD。

动量优化法的优点是收敛快，不容易陷入局部最优解，但是缺点是有时候会冲过头了，使得结果不够精确。

如果使得use_nesterov=True，则该优化器实现牛顿加速梯度（NAG, Nesterov accelerated gradient）算法，该算法是Momentum动量算法的变种。

4 RMSProp算法

tf.train.RMSPropOptimizer(learning_rate, decay=0.9, momentum=0.0, epsilon=1e-10, use_locking=False, name='RMSProp')

常用的参数由learning_rate
RMSProp算法修改了AdaGrad的梯度积累为指数加权的移动平均，使得其在非凸设定下效果更好。
RMSProp算法在经验上已经被证明是一种有效且实用的深度神经网络优化算法。目前它是深度学习从业者经常采用的优化方法之一。

5 Adam算法

tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-08, use_locking=False, name='Adam')

常用的参数由learning_rate

Adam中动量直接并入了梯度一阶矩（指数加权）的估计。相比于缺少修正因子导致二阶矩估计可能在训练初期具有很高偏置的RMSProp，Adam包括偏置修正，修正从原点初始化的一阶矩（动量项）和（非中心的）二阶矩估计。

Adam通常被认为对超参数的选择相当鲁棒，尽管学习率有时需要从建议的默认修改。
在实际运用中Adam效果非常优秀。

例子

本文以Mnist手写体识别为例子，将各个Optimizer在实际分类中进行运用，本例中，使用的神经网络是一个二层神经网络，每一层神经元均为150个，所用激励函数均为tf.nn.tanh()。

import tensorflow as tf
import numpy as np
from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets("MNIST_data",one_hot = "true")

def add_layer(inputs,in_size,out_size,n_layer,activation_function = None):

    layer_name = 'layer%s'%n_layer
    with tf.name_scope(layer_name):
        with tf.name_scope("Weights"):
            Weights = tf.Variable(tf.random_normal([in_size,out_size]),name = "Weights")
            tf.summary.histogram(layer_name+"/weights",Weights)
        with tf.name_scope("biases"):
            biases = tf.Variable(tf.zeros([1,out_size]) + 0.1,name = "biases")
            tf.summary.histogram(layer_name+"/biases",biases)
        with tf.name_scope("Wx_plus_b"):
            Wx_plus_b = tf.matmul(inputs,Weights) + biases
            tf.summary.histogram(layer_name+"/Wx_plus_b",Wx_plus_b)
        if activation_function == None :
            outputs = Wx_plus_b
        else:
            outputs = activation_function(Wx_plus_b)
        tf.summary.histogram(layer_name+"/outputs",outputs)
        return outputs

def compute_accuracy(x_data,y_data):
    global prediction
    y_pre = sess.run(prediction,feed_dict={xs:x_data})
    correct_prediction = tf.equal(tf.arg_max(y_data,1),tf.arg_max(y_pre,1))     #判断是否相等
    accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32))   #赋予float32数据类型，求平均。
    result = sess.run(accuracy,feed_dict = {xs:batch_xs,ys:batch_ys})   #执行
    return result

xs = tf.placeholder(tf.float32,[None,784])
ys = tf.placeholder(tf.float32,[None,10])

layer1 = add_layer(xs,784,150,"layer1",activation_function = tf.nn.tanh)
prediction = add_layer(layer1,150,10,"layer2")

with tf.name_scope("loss"):
    loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=ys,logits = prediction),name = 'loss')
    #label是标签，logits是预测值，交叉熵。
    tf.summary.scalar("loss",loss)

train = tf.train.GradientDescentOptimizer(0.2).minimize(loss)
init = tf.initialize_all_variables()

merged = tf.summary.merge_all()

with tf.Session() as sess:
    sess.run(init)
    write = tf.summary.FileWriter("logs/",sess.graph)
    for i in range(5001):
        batch_xs,batch_ys = mnist.train.next_batch(100)
        sess.run(train,feed_dict = {xs:batch_xs,ys:batch_ys})
        if i % 1000 == 0:
            print("训练%d次的识别率为：%f。"%((i+1),compute_accuracy(mnist.test.images,mnist.test.labels)))

            result = sess.run(merged,feed_dict={xs:batch_xs,ys:batch_ys})
            write.add_summary(result,i)

在该部分中，我主要只修改训练的Optimizer。

train = tf.train.GradientDescentOptimizer(0.2).minimize(loss)

1 梯度下降法

在该例子中，训练器为：

train = tf.train.GradientDescentOptimizer(0.2).minimize(loss)

得到结果：

训练1次的识别率为：0.119100。
训练1001次的识别率为：0.864600。
训练2001次的识别率为：0.889300。
训练3001次的识别率为：0.897400。
训练4001次的识别率为：0.905600。
训练5001次的识别率为：0.910200。

2 Adagrad下降法

在该例子中，训练器为：

train = tf.train.AdagradOptimizer(0.1).minimize(loss)

得到结果

训练1次的识别率为：0.136100。
训练1001次的识别率为：0.871600。
训练2001次的识别率为：0.894400。
训练3001次的识别率为：0.900500。
训练4001次的识别率为：0.909100。
训练5001次的识别率为：0.911600。

3 动量优化法

在该例子中，训练器为：

train = tf.train.MomentumOptimizer(learning_rate=0.05, momentum=0.9).minimize(loss)

得到结果

训练1次的识别率为：0.121300。
训练1001次的识别率为：0.894800。
训练2001次的识别率为：0.909400。
训练3001次的识别率为：0.916900。
训练4001次的识别率为：0.920700。
训练5001次的识别率为：0.927600。

4 RMSProp算法

在该例子中，训练器为：;

train = tf.train.RMSPropOptimizer(0.01).minimize(loss)

得到结果

训练1次的识别率为：0.071500。
训练1001次的识别率为：0.929500。
训练2001次的识别率为：0.944000。
训练3001次的识别率为：0.954100。
训练4001次的识别率为：0.953900。
训练5001次的识别率为：0.958000。

5 Adam算法

在该例子中，训练器为：

train = tf.train.AdamOptimizer(0.004).minimize(loss)

得到结果

训练1次的识别率为：0.103100。
训练1001次的识别率为：0.900700。
训练2001次的识别率为：0.928100。
训练3001次的识别率为：0.938900。
训练4001次的识别率为：0.945600。
训练5001次的识别率为：0.952100。

总结

在本例中，RMSProp算法和Adam算法在短时间内就得到了很好的训练效果，识别率都在95%以上，相比之下梯度下降法、Adagrad下降法和动量优化法表现较为逊色，但不能说明在任何情况下都是RMSProp算法和Adam算法比其它算法更加优秀，在实际应用中，选择哪种优化器应结合具体问题具体分析。

同时，也优化器的选择也取决于使用者对优化器的掌握情况，其中调节参数就是非常重要的一环，更多关于tensorflowtf优化器Optimizer的资料请关注我们其它相关文章！

keras中的loss、optimizer、metrics用法

用keras搭好模型架构之后的下一步,就是执行编译操作.在编译时,经常需要指定三个参数 loss optimizer metrics 这三个参数有两类选择: 使用字符串使用标识符,如keras.losses,keras.optimizers,metrics包下面的函数例如: sgd = SGD(lr=0.01, decay=1e-6, momentum=0.9, nesterov=True) model.compile(loss='categorical_crossentropy', opt
python人工智能tensorflowtf优化器Optimizer算法汇总

目录前言 tensorflow常见的Optimizer 1 梯度下降法 2 Adagrad下降法 3 动量优化法 4 RMSProp算法 5 Adam算法例子 1 梯度下降法 2 Adagrad下降法 3 动量优化法 4 RMSProp算法 5 Adam算法总结前言优化器的选择关乎参数更新的方法,合理的方法可以帮助机器学习更好的寻找到全局最佳值.那我们快点开始学习吧 tensorflow常见的Optimizer 1 梯度下降法 tf.train.GradientDescentOptim
pytorch中的优化器optimizer.param_groups用法

optimizer.param_groups: 是长度为2的list,其中的元素是2个字典: optimizer.param_groups[0]: 长度为6的字典,包括['amsgrad', 'params', 'lr', 'betas', 'weight_decay', 'eps']这6个参数: optimizer.param_groups[1]: 好像是表示优化器的状态的一个字典: import torch import torch.optim as optimh2 w1 = torch.r
如何在keras中添加自己的优化器(如adam等)

本文主要讨论windows下基于tensorflow的keras 1.找到tensorflow的根目录如果安装时使用anaconda且使用默认安装路径,则在 C:\ProgramData\Anaconda3\envs\tensorflow-gpu\Lib\site-packages\tensorflow处可以找到(此处为GPU版本),cpu版本可在C:\ProgramData\Anaconda3\Lib\site-packages\tensorflow处找到.若并非使用默认安装路径,可参照根目
pytorch 优化器(optim)不同参数组,不同学习率设置的操作

optim 的基本使用 for do: 1. 计算loss 2. 清空梯度 3. 反传梯度 4. 更新参数 optim的完整流程 cifiron = nn.MSELoss() optimiter = torch.optim.SGD(net.parameters(),lr=0.01,momentum=0.9) for i in range(iters): out = net(inputs) loss = cifiron(out,label) optimiter.zero_grad() # 清空之前
python人工智能深度学习算法优化

目录 1.SGD 2.SGDM 3.Adam 4.Adagrad 5.RMSProp 6.NAG 1.SGD 随机梯度下降随机梯度下降和其他的梯度下降主要区别,在于SGD每次只使用一个数据样本,去计算损失函数,求梯度,更新参数.这种方法的计算速度快,但是下降的速度慢,可能会在最低处两边震荡,停留在局部最优. 2.SGDM SGM with Momentum:动量梯度下降动量梯度下降,在进行参数更新之前,会对之前的梯度信息,进行指数加权平均,然后使用加权平均之后的梯度,来代替原梯度,进行参数的
python人工智能tensorflow常见损失函数LOSS汇总

目录前言运算公式 1 均方差函数 2 交叉熵函数 tensorflow中损失函数的表达 1 均方差函数 2 交叉熵函数例子 1 均方差函数 2 交叉熵函数前言损失函数在机器学习中用于表示预测值与真实值之间的差距.一般而言,大多数机器学习模型都会通过一定的优化器来减小损失函数从而达到优化预测机器学习模型参数的目的.哦豁,损失函数这么必要,那都存在什么损失函数呢? 一般常用的损失函数是均方差函数和交叉熵函数. 运算公式 1 均方差函数均方差函数主要用于评估回归模型的使用效果,其概念相对简
基于 Python 实践感知器分类算法

Perceptron是用于二进制分类任务的线性机器学习算法.它可以被认为是人工神经网络的第一种和最简单的类型之一.绝对不是"深度"学习,而是重要的组成部分.与逻辑回归相似,它可以快速学习两类分类任务在特征空间中的线性分离,尽管与逻辑回归不同,它使用随机梯度下降优化算法学习并且不预测校准概率. 在本教程中,您将发现Perceptron分类机器学习算法.完成本教程后,您将知道: Perceptron分类器是一种线性算法,可以应用于二进制分类任务. 如何使用带有Scikit-Learn的Pe
python人工智能算法之线性回归实例

目录线性回归使用场景分析: 总结: 线性回归是一种常见的机器学习算法,也是人工智能中常用的算法.它是一种用于预测数值型输出变量与一个或多个自变量之间线性关系的方法.例如,你可以使用线性回归模型来预测房价,根据房屋的面积.地理位置.周围环境等. 主要思想是通过构建一个线性模型,来描述自变量和输出变量之间的关系.模型可以表示为: y = a0 + a1*x1 + a2*x2 + - + an*xn 其中,y是输出变量(也称为响应变量),x1.x2.….xn是自变量(也称为特征),a0.a1.
python人工智能算法之决策树流程示例详解

目录决策树总结决策树是一种将数据集通过分割成小的.易于处理的子集来进行分类或回归的算法.其中每个节点代表一个用于划分数据的特征,每个叶子节点代表一个类别或一个预测值.构建决策树时,算法会选择最好的特征进行分割数据,使每个子集中的数据尽可能的归属同一类或具有相似的特征.这个过程会不断重复,类似于Java中的递归,直到达到停止条件(例如叶子节点数目达到一个预设值),形成一棵完整的决策树.它适合于处理分类和回归任务.而在人工智能领域,决策树也是一种经典的算法,具有广泛的应用. 接下来简单介绍下
使用优化器来提升Python程序的执行效率的教程

如果不首先想想这句Knuth的名言,就开始进行优化工作是不明智的.可是,你很快写出来加入一些特性的代码,可能会很丑陋,你需要注意了.这篇文章就是为这时候准备的. 那么接下来就是一些很有用的工具和模式来快速优化Python.它的主要目的很简单:尽快发现瓶颈,修复它们并且确认你修复了它们. 写一个测试在你开始优化前,写一个高级测试来证明原来代码很慢.你可能需要采用一些最小值数据集来复现它足够慢.通常一两个显示运行时秒的程序就足够处理一些改进的地方了. 有一些基础测试来保证你的优化没有改变原有代码的

python人工智能tensorflowtf优化器Optimizer算法汇总

目录

前言

tensorflow常见的Optimizer

1 梯度下降法

2 Adagrad下降法

3 动量优化法

4 RMSProp算法

5 Adam算法

例子

1 梯度下降法

2 Adagrad下降法

3 动量优化法

4 RMSProp算法

5 Adam算法

总结

相关推荐

随机推荐