TensorFlow实现MLP多层感知机模型

2025-02-15 17:51:15

一、多层感知机简介

Softmax回归可以算是多分类问题logistic回归，它和神经网络的最大区别是没有隐含层。理论上只要隐含节点足够多，即时只有一个隐含层的神经网络也可以拟合任意函数，同时隐含层越多，越容易拟合复杂结构。为了拟合复杂函数需要的隐含节点的数目，基本上随着隐含层的数量增多呈指数下降的趋势，也就是说层数越多，神经网络所需要的隐含节点可以越少。层数越深，概念越抽象，需要背诵的知识点就越少。在实际应用中，深层神经网络会遇到许多困难，如过拟合、参数调试、梯度弥散等。

过拟合是机器学习中的一个常见问题，是指模型预测准确率在训练集上升高，但是在测试集上的准确率反而下降，这通常意味着模型的泛化能力不好，过度拟合了训练集。针对这个问题，Hinton教授团队提出了Dropout的解决办法，在使用CNN训练图像数据时效果尤其有效，其大体思路是在训练时将神经网络某一层的输出节点数据随机丢失一部分。这种做法实质上等于创造出了许多新的随机样本，通过增大样本量、减少特征数量来防止过拟合。

参数调试问题尤其是SGD（StochasticGradient Descent）的参数，对SGD设置不同的学习率learning rate，最后得到的结果可能差异巨大。神经网络的优化通常不是一个简单的凸优化问题，它处处充满了局部最优。有理论表示，神经网络可能有很多个局部最优解都可以达到比较好的分类效果，而全局最优很可能造成过拟合。对SGD，我们希望一开始学习率大一些，加速收敛，在训练的后期又希望学习率小一些，这样可以低速进入一个局部最优解。不同的机器学习问题的学习率设置也需要针对性的调试，像Adagrad、Adam、Adadelta等自适应的方法可以减轻调试参数的负担。对于这些优化算法，通常我们使用其默认的参数设置就可以得到比较好的效果。

梯度弥散（Gradient Vanishment）是另一个影响深层神经网络训练的问题，在ReLU激活函数出现之前，神经网络训练是使用Sigmoid作为激活函数。非线性的Sigmoid函数在信号的特征空间映射上，对中央区的信号增益较大，对两侧区的信号增益小。当神经网络层数较多时，Sigmoid函数在反向传播中梯度值会逐渐减小，到达前面几层的梯度值就变得非常小了，在神经网络训练的时候，前面几层的神经网络参数几乎得不到训练更新。指导ReLU，y = max(0, x)，的出现才比较完美的解决了梯度弥散的问题。信号在超过某个阈值时，神经元才会进入兴奋和激活的状态，否则会处于抑制状态。ReLU可以很好的反向传递梯度，经过多层的梯度反向传播，梯度依旧不会大幅减小，因此非常适合深层神经网络的训练。ReLU对比于Sigmoid的主要特点有以下几点：（1）单侧抑制；（2）相对宽阔的兴奋边界；（3）稀疏激活性。目前，ReLU及其变种EIU、PReLU、RReLU已经成为最主流的激活函数。实践中大部分情况下（包括MLP、CNN、RNN）将隐含层的激活函数从Sigmoid替换为ReLU都可以带来训练速度和模型准确率的提升。当然神经网络的输出层一般都是Sigmoid函数，因为它最接近概率输出分布。

二、TensorFlow实现过程

完整代码：

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data 

mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
in_units = 784 #输入节点数
h1_units = 300 #隐含层节点数
W1 = tf.Variable(tf.truncated_normal([in_units, h1_units], stddev=0.1)) #初始化隐含层权重W1，服从默认均值为0，标准差为0.1的截断正态分布
b1 = tf.Variable(tf.zeros([h1_units])) #隐含层偏置b1全部初始化为0
W2 = tf.Variable(tf.zeros([h1_units, 10]))
b2 = tf.Variable(tf.zeros([10]))
x = tf.placeholder(tf.float32, [None, in_units])
keep_prob = tf.placeholder(tf.float32) #Dropout失活率 

#定义模型结构
hidden1 = tf.nn.relu(tf.matmul(x, W1) + b1)
hidden1_drop = tf.nn.dropout(hidden1, keep_prob)
y = tf.nn.softmax(tf.matmul(hidden1_drop, W2) + b2) 

#训练部分
y_ = tf.placeholder(tf.float32, [None, 10])
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))
train_step = tf.train.AdagradOptimizer(0.3).minimize(cross_entropy) 

#定义一个InteractiveSession会话并初始化全部变量
sess = tf.InteractiveSession()
tf.global_variables_initializer().run()
correct_prediction = tf.equal(tf.arg_max(y, 1), tf.arg_max(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
for i in range(3001):
  batch_xs, batch_ys = mnist.train.next_batch(100)
  train_step.run({x: batch_xs, y_: batch_ys, keep_prob: 0.75})
  if i % 200 ==0:
    #训练过程每200步在测试集上验证一下准确率，动态显示训练过程
    print(i, 'training_arruracy:', accuracy.eval({x: mnist.test.images, y_: mnist.test.labels,
               keep_prob: 1.0}))
print('final_accuracy:', accuracy.eval({x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))

在TensorFlow上实现的Softmax回归模型对MNIST数据集取得了92%的正确率，现在我们给神经网络加上一层隐含层，并使用减轻过拟合的Dropout、自适应学习率的Adagrad以及解决梯度弥散问题激活函数ReLU。

首先，载入TensorFlow的并加载MNIST、数据集。指定输入节点数in_units和隐含层节点数h1_units。初始化隐含层的全中W1和偏置b1，因为模型使用的激活函数是ReLU，需要使用正态分布对W1进行初始化，给权重参数增加一些噪声来打破完全对称并避免0梯度。在其它一些模型中，有时还需要给偏置初始化一些非零初始值来避免dead neuron（死亡神经元）。对于输出层Softmax，直接将全中W2和偏置b2全部初始化为0即可。接下来为输入x设置placeholder，并为不同的Dropout设置一个输入placeholder，通常在训练时小于1，预测时等于1。

下面定义模型结构，首先定义一个隐含层hidden1，通过tf.nn.relu(tf.matmul(x,W1) + b1)实现一个激活函数为ReLU的隐含层，这个隐含层的计算公式就是y = relu(W1x + b1)。接下来调用tf.nn.dropout实现Dropout功能，随机将一部分神经元节点置为0，这里的keep_prob参数是保留的数据比例而不是置为0的比例。在训练的时候应该是小于1用以制造随机性，防止过拟合；在预测的时候应该等于1，即全部特征用来预测样本的类别。

在优化器选择上，我们选择Adagrad并把学习率设置为0.3，这里我们直接使用tf.train.AdagradOptimizer(0.3)就可以了。

接下来的训练部分和预测部分以及定义绘画等请参见另一篇博文MNIST在TensorFLow上的Softmax回归模型实现，有详细介绍。

最终，但隐含层MLP模型在测试集上可以达到98%的准确率，相比之前Softmax回归模型的92%的准确率有了飞跃性的提高。

三、其他补充说明

1. tf.truncated_normal

tf.truncated_normal(shape, mean=0.0, stddev=1.0, dtype=tf.float32,seed=None, name=None)

函数功能：返回指定形状的服从指定均值和标准差的截断正态分布的tensor。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

您可能感兴趣的文章:

Python 网页解析HTMLParse的实例详解
在Python中使用HTMLParser解析HTML的教程
Python HTMLParser模块解析html获取url实例
Python中使用HTMLParser解析html实例
python网络编程学习笔记(七)：HTML和XHTML解析(HTMLParser、BeautifulSoup)

Python中使用HTMLParser解析html实例

前几天遇到一个问题,需要把网页中的一部分内容挑出来,于是找到了urllib和HTMLParser两个库.urllib可以将网页爬下来,然后交由HTMLParser解析,初次使用这个库,在查官方文档时也遇到了一些问题,在这里写下来与大家分享. 一个例子复制代码代码如下: from HTMLParser import HTMLParser class MyHTMLParser(HTMLParser): def handle_starttag(self, tag, attrs): pr
在Python中使用HTMLParser解析HTML的教程

如果我们要编写一个搜索引擎,第一步是用爬虫把目标网站的页面抓下来,第二步就是解析该HTML页面,看看里面的内容到底是新闻.图片还是视频. 假设第一步已经完成了,第二步应该如何解析HTML呢? HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,所以不能用标准的DOM或SAX来解析HTML. 好在Python提供了HTMLParser来非常方便地解析HTML,只需简单几行代码: from HTMLParser import HTMLParser from htmlentitydef
Python 网页解析HTMLParse的实例详解

Python 网页解析HTMLParse的实例详解使用python将网页抓取下来之后,下一步我们就应该解析网页,提取我们所需要的内容了,在python里提供了一个简单的解析模块HTMLParser类,使用起来也是比较简单的,解析语法没有用到XPath类似的简洁模式,但新手用起来还是比较容易的,看下面的例子: 现在一个模拟的html文件: <html> <title id='main' mouse='你好'>我是标题</title><body>我是内容<
Python HTMLParser模块解析html获取url实例

HTMLParser是python用来解析html的模块.它可以分析出html里面的标签.数据等等,是一种处理html的简便途径.HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理.它主要的用户回调函数的命名都是以handler_开头的,都是HTMLParser的成员函数.当我们使用时,就从HTMLParser派生出新的类,然后重新定义这几个以handler_开头的函数即可.这几个函数包括: handle_
python网络编程学习笔记(七)：HTML和XHTML解析(HTMLParser、BeautifulSoup)

一.利用HTMLParser进行网页解析具体HTMLParser官方文档可参考http://docs.python.org/library/htmlparser.html#HTMLParser.HTMLParser 1.从一个简单的解析例子开始例1: test1.html文件内容如下: 复制代码代码如下: <html> <head> <title> XHTML 与 HTML 4.01 标准没有太多的不同</title> </head> &l
TensorFlow实现MLP多层感知机模型

一.多层感知机简介 Softmax回归可以算是多分类问题logistic回归,它和神经网络的最大区别是没有隐含层.理论上只要隐含节点足够多,即时只有一个隐含层的神经网络也可以拟合任意函数,同时隐含层越多,越容易拟合复杂结构.为了拟合复杂函数需要的隐含节点的数目,基本上随着隐含层的数量增多呈指数下降的趋势,也就是说层数越多,神经网络所需要的隐含节点可以越少.层数越深,概念越抽象,需要背诵的知识点就越少.在实际应用中,深层神经网络会遇到许多困难,如过拟合.参数调试.梯度弥散等. 过拟合是机器学习中的
TensorFlow神经网络创建多层感知机MNIST数据集

前面使用TensorFlow实现一个完整的Softmax Regression,并在MNIST数据及上取得了约92%的正确率. 前文传送门: TensorFlow教程Softmax逻辑回归识别手写数字MNIST数据集现在建含一个隐层的神经网络模型(多层感知机). import tensorflow as tf import numpy as np import input_data mnist = input_data.read_data_sets('data/', one_hot=True)
Tensorflow 2.4 搭建单层和多层 Bi-LSTM 模型

目录前言实现过程 1. 获取数据 2. 处理数据 3. 单层 Bi-LSTM 模型 4. 多层 Bi-LSTM 模型前言本文使用 cpu 版本的 TensorFlow 2.4 ,分别搭建单层 Bi-LSTM 模型和多层 Bi-LSTM 模型完成文本分类任务. 确保使用 numpy == 1.19.0 左右的版本,否则在调用 TextVectorization 的时候可能会报 NotImplementedError . 实现过程 1. 获取数据 (1)我们本文用到的数据是电影的影评数据,每
Python机器学习多层感知机原理解析

目录隐藏层从线性到非线性激活函数 ReLU函数 sigmoid函数 tanh函数隐藏层我们在前面描述了仿射变换,它是一个带有偏置项的线性变换.首先,回想下之前下图中所示的softmax回归的模型结构.该模型通过单个仿射变换将我们的输入直接映射到输出,然后进行softmax操作.如果我们的标签通过仿射变换后确实与我们的输入数据相关,那么这种方法就足够了.但是,仿射变换中的线性是一个很强的假设. 我们的数据可能会有一种表示,这种表示会考虑到我们的特征之间的相关交互作用.在此表示的基础上建立
pytorch神经网络从零开始实现多层感知机

目录初始化模型参数激活函数模型损失函数训练我们已经在数学上描述了多层感知机,现在让我们尝试自己实现一个多层感知机.为了与我们之前使用softmax回归获得的结果进行比较,我们将继续使用Fashion-MNIST图像分类数据集. import torch from torch import nn from d2l import torch as d2l batch_size = 256 train_iter, test_iter = d2l.load_data_fashion_mnis
Python深度学习pytorch神经网络多层感知机简洁实现

我们可以通过高级API更简洁地实现多层感知机. import torch from torch import nn from d2l import torch as d2l 模型与softmax回归的简洁实现相比,唯一的区别是我们添加了2个全连接层.第一层是隐藏层,它包含256个隐藏单元,并使用了ReLU激活函数.第二层是输出层. net = nn.Sequential(nn.Flatten(), nn.Linear(784, 256), nn.ReLU(), nn.Linear(256, 1
Tensorflow 同时载入多个模型的实例讲解

有时我们希望在一个python的文件空间同时载入多个模型,例如我们建立了10个CNN模型,然后我们又写了一个预测类Predict,这个类会从已经保存好的模型restore恢复相应的图结构以及模型参数.然后我们会创建10个Predict的对象Instance,每个Instance负责一个模型的预测. Predict的核心为: class Predict: def __init__(self....): 创建sess 创建恢复器tf.train.Saver 从恢复点恢复参数:tf.train.Sa
tensorflow ckpt模型和pb模型获取节点名称,及ckpt转pb模型实例

ckpt from tensorflow.python import pywrap_tensorflow checkpoint_path = 'model.ckpt-8000' reader = pywrap_tensorflow.NewCheckpointReader(checkpoint_path) var_to_shape_map = reader.get_variable_to_shape_map() for key in var_to_shape_map: print("tensor_
TensorFlow Saver:保存和读取模型参数.ckpt实例

在使用TensorFlow的过程中,保存模型参数变量是很重要的一个环节,既可以保证训练过程信息不丢失,也可以帮助我们在需要快速恢复或使用一个模型的时候,利用之前保存好的参数之间导入,可以节省大量的训练时间.本文通过最简单的例程教大家如何保存和读取.ckpt文件. 一.保存到文件首先是导入必要的东西: import tensorflow as tf import numpy as np 随便写几个变量: # Save to file # remember to define the same d
tensorflow的ckpt及pb模型持久化方式及转化详解

使用tensorflow训练模型的时候,模型持久化对我们来说非常重要. 如果我们的模型比较复杂,需要的数据比较多,那么在模型的训练时间会耗时很长.如果在训练过程中出现了模型不可预期的错误,导致训练意外终止,那么我们将会前功尽弃.为了解决这一问题,我们可以使用模型持久化(保存为ckpt文件格式)来保存我们在训练过程中的临时数据.. 如果我们训练出的模型需要提供给用户做离线预测,那么我们只需要完成前向传播过程.这个时候我们就可以使用模型持久化(保存为pb文件格式)来只保存前向传播过程中的变量并将变量

TensorFlow实现MLP多层感知机模型

您可能感兴趣的文章:

相关推荐

随机推荐