解决TensorFlow训练内存不断增长,进程被杀死问题

2025-02-16 00:32:32

TensorFlow训练时，遇到内存不断增长，最终导致内存不足，进程被杀死。

在这里我不准备对造成这一现象的所有原因进行探讨，只是记录一下我在项目中遇到的这一问题，下面将对我遇到的内存不断增长的原因进行分析。

在TensorFlow中构造图，是将一些op作为节点加入图中，在run之前，是需要构造好一个图的，所以在run的时候，如果run图中不存在的节点，TensorFlow就会将节点加入图中，随着不断的迭代，造成内存不断的增长，从而导致内存不足。

下面举一个很容易发现这个问题的例子：

import tensorflow as tf
x = tf.Variable(tf.constant(1))
y = tf.constant(2)
sess = tf.Session()
sess.run(tf.global_variables_initializer())
while True:
 print(sess.run(x+y))

在上面的例子中，x,y是图中的两个节点，在while循环中run(x)或者run(y)都是不存在问题的，但是上例中我们使用的时run(x+y)，而在TensorFlow的图中是不存在x+y这个节点的，所以在run的时候，图中会不断的创建该节点，最终导致了内存不足。这个例子很容易理解，这样的问题也很容易发现。

下面，将举一个不是那么容易发现的问题：

import tensorflow as tf
test = tf.get_variable('test', shape=[4, 1], initializer=tf.random_normal_initializer(stddev=0.1))
init_op = tf.global_variables_initializer()
with tf.Session() as sess:
 sess.run(init_op)
 print(sess.run(test[0]))

这个例子是创建一个shape为[4,1]的变量对象，test为图中的一个节点，但是在我们实际使用时，我们可能并不需要test里的所有数据，加入只需要一个数据test[0]，当我们使用run(test[0])时，test[0]并不是图中的节点，该节点就会在图中创建。上面的例子并没有使用循环，所以增加了节点，但是也不会造成内存的不足，当使用了循环时，就需要注意了。

解决办法：run图中存在的节点，对返回的结果进行处理，得到想要的结果，不要在run里面对节点处理（处理后的节点可能不是图中的节点）。

以上这篇解决TensorFlow训练内存不断增长,进程被杀死问题就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

Tensorflow 实现释放内存

我在做tensorflow开发的时候遇到如下的错误,我请教了深度学习社区q群中的大神,大神说这是运算图还在内存中,没有及时释放,需要restart一下kernel,但是由于我的代码不能停止执行,所以没办法用重新运行代码来解决释放内存运行图的问题. 问题: with tf.Session() as sess: saver = tf.train.Saver() #保存运算图当我退出with并且立马执行 self.sess = tf.Session() self.saver = tf.train.i
tensorflow 打印内存中的变量方法

法一: 循环打印模板 for (x, y) in zip(tf.global_variables(), sess.run(tf.global_variables())): print '\n', x, y 实例 # coding=utf-8 import tensorflow as tf def func(in_put, layer_name, is_training=True): with tf.variable_scope(layer_name, reuse=tf.AUTO_REUSE):
解决tensorflow训练时内存持续增加并占满的问题

记录一次小白的tensorflow学习过程,也为有同样困扰的小白留下点经验. 先说我出错和解决的过程.在做风格迁移实验时,使用预加载权重的VGG19网络正向提取中间层结果,结果因为代码不当,在遍历图片提取时内存持续增长,导致提取几十个图片的特征内存就满了. 原因是在对每一张图片正向传播结束后,都会在留下中间信息.具体地说是在我将正向传播的代码与模型的代码分离了,在每次遍历图片时都会正向传播,在tensorflow中新增加了很多的计算节点(如tf.matmul等等),导致内存中遗留了大量的过期信息
Tensorflow 训练自己的数据集将数据直接导入到内存

制作自己的训练集下图是我们数据的存放格式,在data目录下有验证集与测试集分别对应iris_test, iris_train 为了向伟大的MNIST致敬,我们采用的数据名称格式和MNIST类似 classification_index.jpg 图像的index都是5的整数倍是因为我们选择测试集的原则是每5个样本,选择一个样本作为测试集,其余的作为训练集和验证集生成这样数据的过程相对简单,如果有需要python代码的,可以给我发邮件,或者在我的github下载至此,我们的训练集,测试集,验证
解决Tensorflow sess.run导致的内存溢出问题

下面是调用模型进行批量测试的代码(出现溢出),开始以为导致溢出的原因是数据读入方式问题引起的,用了tf , PIL和cv等方式读入图片数据,发现越来越慢,内存占用飙升,调试时发现是sess.run这里出了问题(随着for循环进行速度越来越慢). # Creates graph from saved GraphDef create_graph(pb_path) # Init tf Session config = tf.ConfigProto() config.gpu_options.allow_
TensorFlow内存管理bfc算法实例

1. 基本介绍 tensorflow设备内存管理模块实现了一个best-fit with coalescing算法(后文简称bfc算法). bfc算法是Doung Lea's malloc(dlmalloc)的一个非常简单的版本. 它具有内存分配.释放.碎片管理等基本功能. 2. bfc基本算法思想 1. 数据结构整个内存空间由一个按基址升序排列的Chunk双向链表来表示,它们的直接前趋和后继必须在地址连续的内存空间.Chunk结构体里含有实际大小.请求大小.是否被占用.基址.直接前趋.直接后
浅谈tensorflow之内存暴涨问题

在用tensorflow实现一些模型的时候,有时候我们在运行程序的时候,会发现程序占用的内存在不断增长.最后内存溢出,程序被kill掉了. 这个问题,其实有两个可能性.一个是比较常见,同时也是很难发现的.这个问题的解决,需要我们知道tensorflow在构图的时候,是没有所谓的临时变量的,只要有operator.那么tensorflow就会在构建的图中增加这个operator所代表的节点.所以,在运行程序的过程中,内存不断增长的原因就是在模型训练迭代的过程中,tensorflow一直在帮你增加图
解决Tensorflow 内存泄露问题

使用tensorflow进行编程时,经常遇到操作不当,带来的内存泄露问题,这里有一个可以帮助debug问题所在方法: https://stackoverflow.com/questions/51175837/tensorflow-runs-out-of-memory-while-computing-how-to-find-memory-leaks/51183870#51183870 使用tf.Graph.finalize()把运算图变成只读的,从而对图的修改都会报错,从而找到内存泄露的定点. 目
解决TensorFlow训练内存不断增长,进程被杀死问题

TensorFlow训练时,遇到内存不断增长,最终导致内存不足,进程被杀死. 在这里我不准备对造成这一现象的所有原因进行探讨,只是记录一下我在项目中遇到的这一问题,下面将对我遇到的内存不断增长的原因进行分析. 在TensorFlow中构造图,是将一些op作为节点加入图中,在run之前,是需要构造好一个图的,所以在run的时候,如果run图中不存在的节点,TensorFlow就会将节点加入图中,随着不断的迭代,造成内存不断的增长,从而导致内存不足. 下面举一个很容易发现这个问题的例子: impor
完美解决TensorFlow和Keras大数据量内存溢出的问题

内存溢出问题是参加kaggle比赛或者做大数据量实验的第一个拦路虎. 以前做的练手小项目导致新手产生一个惯性思维--读取训练集图片的时候把所有图读到内存中,然后分批训练. 其实这是有问题的,很容易导致OOM.现在内存一般16G,而训练集图片通常是上万张,而且RGB图,还很大,VGG16的图片一般是224x224x3,上万张图片,16G内存根本不够用.这时候又会想起--设置batch,但是那个batch的输入参数却又是图片,它只是把传进去的图片分批送到显卡,而我OOM的地方恰是那个"传进去&quo
tensorflow训练中出现nan问题的解决

深度学习中对于网络的训练是参数更新的过程,需要注意一种情况就是输入数据未做归一化时,如果前向传播结果已经是[0,0,0,1,0,0,0,0]这种形式,而真实结果是[1,0,0,0,0,0,0,0,0],此时由于得出的结论不惧有概率性,而是错误的估计值,此时反向传播会使得权重和偏置值变的无穷大,导致数据溢出,也就出现了nan的问题. 解决办法: 1.对输入数据进行归一化处理,如将输入的图片数据除以255将其转化成0-1之间的数据; 2.对于层数较多的情况,各层都做batch_nomorlizati
Keras 快速解决OOM超内存的问题

如果在Keras内部多次使用同一个Model,例如在不同的数据集上训练同一个模型进而得到结果,会存在内存泄露的问题.在运行几次循环之后,就会报错OOM. 解决方法是在每个代码后面接clear_session()函数,显示的关闭TFGraph,再重启. 详情参考 https://keras.io/backend/#backend-functions. from keras import backend as K K.clear_session() 补充知识:Keras多次加载模型进行测试时内存溢出
解决TensorFlow程序无限制占用GPU的方法

今天遇到一个奇怪的现象,使用tensorflow-gpu的时候,出现内存超额~~如果我训练什么大型数据也就算了,关键我就写了一个y=W*x-显示如下图所示: 程序如下: import tensorflow as tf w = tf.Variable([[1.0,2.0]]) b = tf.Variable([[2.],[3.]]) y = tf.multiply(w,b) init_op = tf.global_variables_initializer() with tf.Session()
解决TensorFlow训练模型及保存数量限制的问题

每次卷积神经网络训练的结果都只保存了最后一部分,查阅了一下相关资料,发现是定义saver时采用的默认值,这里进行如下设置: saver = tf.train.Saver( max_to_keep = 100 , keep_checkpoint_every_n_hours = 1 ) 补充:解决TensorFlow只能保存5个模型的问题直奔主题在训练模型的代码中找到这句代码:tf.train.Saver(), 改成: tf.train.Saver(max_to_keep = m) # m为你想
解决tensorflow模型参数保存和加载的问题

终于找到bug原因!记一下:还是不熟悉平台的原因造成的! Q:为什么会出现两个模型对象在同一个文件中一起运行,当直接读取他们分开运行时训练出来的模型会出错,而且总是有一个正确,一个读取错误? 而直接在同一个文件又训练又重新加载模型预测不出错,而且更诡异的是此时用分文件里的对象加载模型不会出错? model.py,里面含有 ModelV 和 ModelP,另外还有 modelP.py 和 modelV.py 分别只含有 ModelP 和 ModeV 这两个对象,先使用 modelP.py 和 m

解决TensorFlow训练内存不断增长,进程被杀死问题

相关推荐

随机推荐