解决Keras使用GPU资源耗尽的问题

2025-02-23 04:49:31

我们在使用GPU资源进行训练的时候，可能会发生资源耗尽的情况，那么在在这种情况，我们需要对GPU的资源进行合理的安排，具体使用办法如下：

框架：Tensorflow和Keras

方法

import tensorflow as tf
import keras.backend.tensorflow_backend as KTF
config = tf.ConfigProto()
config.gpu_options.allow_growth=True #不全部占满显存, 按需分配
sess = tf.Session(config=config)
KTF.set_session(sess) # 设置session

通过这种方法，就能合理的使用GPU资源了。

至少到目前位置，我自己从程序没出现资源耗尽的情况，当然，对于batchsize的设置，一定要设置在合理的范围，所谓合理，大家自己体会。

补充知识：keras使用GPU的一些坑

keras安装

conda install tensorflow-gpu

pip install keras

注意：不要使用conda安装keras，会检测依赖，默认安装上tensorflow的CPU版本。

keras运行报错，tensorflow/stream_executor/cuda/cuda_dnn.cc:329 Could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR

解决方法：

增加如下代码：

gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.5)
config = tf.ConfigProto(gpu_options=gpu_options)
config.gpu_options.allow_growth = True
session = tf.Session(config=config)

以上这篇解决Keras使用GPU资源耗尽的问题就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

解决pytorch GPU 计算过程中出现内存耗尽的问题

Pytorch GPU运算过程中会出现:"cuda runtime error(2): out of memory"这样的错误.通常,这种错误是由于在循环中使用全局变量当做累加器,且累加梯度信息的缘故,用官方的说法就是:"accumulate history across your training loop".在默认情况下,开启梯度计算的Tensor变量是会在GPU保持他的历史数据的,所以在编程或者调试过程中应该尽力避免在循环中累加梯度信息. 下面举个栗子: 上代
Tensorflow与Keras自适应使用显存方式

Tensorflow支持基于cuda内核与cudnn的GPU加速,Keras出现较晚,为Tensorflow的高层框架,由于Keras使用的方便性与很好的延展性,之后更是作为Tensorflow的官方指定第三方支持开源框架. 但两者在使用GPU时都有一个特点,就是默认为全占满模式.在训练的情况下,特别是分步训练时会导致显存溢出,导致程序崩溃. 可以使用自适应配置来调整显存的使用情况. 一.Tensorflow 1.指定显卡代码中加入 import os os.environ["CUDA_VIS
Keras 快速解决OOM超内存的问题

如果在Keras内部多次使用同一个Model,例如在不同的数据集上训练同一个模型进而得到结果,会存在内存泄露的问题.在运行几次循环之后,就会报错OOM. 解决方法是在每个代码后面接clear_session()函数,显示的关闭TFGraph,再重启. 详情参考 https://keras.io/backend/#backend-functions. from keras import backend as K K.clear_session() 补充知识:Keras多次加载模型进行测试时内存溢出
基于Keras 循环训练模型跑数据时内存泄漏的解决方式

在使用完模型之后,添加这两行代码即可清空之前model占用的内存: import tensorflow as tf from keras import backend as K K.clear_session() tf.reset_default_graph() 补充知识:keras 多个模型测试阶段速度越来越慢问题的解决方法问题描述在实际应用或比赛中,经常会用到交叉验证(10倍或5倍)来提高泛化能力,这样在预测时需要加载多个模型.常用的方法为 mods = [] from keras.ut
解决Keras使用GPU资源耗尽的问题

我们在使用GPU资源进行训练的时候,可能会发生资源耗尽的情况,那么在在这种情况,我们需要对GPU的资源进行合理的安排,具体使用办法如下: 框架:Tensorflow和Keras 方法 import tensorflow as tf import keras.backend.tensorflow_backend as KTF config = tf.ConfigProto() config.gpu_options.allow_growth=True #不全部占满显存, 按需分配 sess = tf
Linux磁盘空间被未知资源耗尽的解决方法

在linux中,当我们使用rm在linux上删除了大文件,但是如果有进程打开了这个大文件,却没有关闭这个文件的句柄,那么linux内核还是不会释放这个文件的磁盘空间,最后造成磁盘空间占用100%,整个系统无法正常运行.这种情况下,通过df和du命令查找的磁盘空间,两者是无法匹配的,可能df显示磁盘100%,而du查找目录的磁盘容量占用却很小. 遇到这种情况,基本可以断定是某些大文件被某些程序占用了,并且这些大文件已经被删除了,但是对应的文件句柄没有被某些程序关闭,造成内核无法回收这些文件占用的空
已安装tensorflow-gpu,但keras无法使用GPU加速的解决

问题我们使用anoconda创建envs环境下的Tensorflow-gpu版的,但是当我们在Pycharm设置里的工程中安装Keras后,发现调用keras无法使用gpu进行加速,且使用的是cpu在运算,这就违背了我们安装Tensorflow-gpu版初衷了. 原因因为我们同时安装了tensorflow和tensorflow-gpu(在-Anaconda3\envs\fyy_tf\Lib\site-packages中可以找到他们的文件夹),使用keras时会默认调用tensorflow,从
C#解决文件被占用资源，无法删除或修改的方法

复制代码代码如下: Thread parameterThread_t = null; private void Print_DetailForm_Shown(object sender, EventArgs e) { parameterThread_t = new Thread(new ParameterizedThreadStart(this.openThread_telnet)); //parameterThread_t.IsBackground = false
解决Tensorflow占用GPU显存问题

我使用Pytorch进行模型训练时发现真正模型本身对于显存的占用并不明显,但是对应的转换为tensorflow后(权重也进行了转换),发现Python-tensorflow在使用时默认吃掉所有显存,并且不手动终结程序的话显存并不释放(我有两个序贯的模型,前面一个跑完后并不释放占用显存)(https://github.com/tensorflow/tensorflow/issues/1727),这一点对于后续的工作有很大的影响. 后面发现python-tensorflow限制显存有两种方法: 1.
解决Keras 与 Tensorflow 版本之间的兼容性问题

在利用Keras进行实验的时候,后端为Tensorflow,出现了以下问题: 1. 服务器端激活Anaconda环境跑程序时,实验结果很差. 环境:tensorflow 1.4.0,keras 2.1.5 2. 服务器端未激活Anaconda环境跑程序时,实验结果回到正常值. 环境:tensorflow 1.7.0,keras 2.0.8 3. 自己PC端跑相同程序时,实验结果回到正常值. 环境:tensorflow 1.6.0,keras 2.1.5 怀疑实验结果的异常性是由于Keras和Te
Keras设定GPU使用内存大小方式(Tensorflow backend)

通过设置Keras的Tensorflow后端的全局变量达到. import os import tensorflow as tf import keras.backend.tensorflow_backend as KTF def get_session(gpu_fraction=0.3): '''Assume that you have 6GB of GPU memory and want to allocate ~2GB''' num_threads = os.environ.get('OM
keras 多gpu并行运行案例

一.多张gpu的卡上使用keras 有多张gpu卡时,推荐使用tensorflow 作为后端.使用多张gpu运行model,可以分为两种情况,一是数据并行,二是设备并行. 二.数据并行数据并行将目标模型在多个设备上各复制一份,并使用每个设备上的复制品处理整个数据集的不同部分数据. 利用multi_gpu_model实现 keras.utils.multi_gpu_model(model, gpus=None, cpu_merge=True, cpu_relocation=False) 具体来说
完美解决keras保存好的model不能成功加载问题

前两天调用之前用keras(tensorflow做后端)训练好model,却意外发现报错了!!之前从来没有过报错!!错误内容粘贴如下: File "h5py_objects.pyx", line 54, in h5py._objects.with_phil.wrapper (C:\Minonda\conda-bld\h5py_1496885653697\work\h5py_objects.c:2867) File "h5py_objects.pyx", line 5
解决Keras自带数据集与预训练model下载太慢问题

keras的数据集源码下载地址太慢.尝试过修改源码中的下载地址,直接报错. 从源码或者网络资源下好数据集,下载好以后放到目录 ~/.keras/datasets/ 下面. 其中:cifar10需要改文件名为cifar-10-batches-py.tar.gz ,cifar100改为 cifar-100-python.tar.gz , mnist改为 mnist.npz 预训练models放到 ~/.keras/models/ 路径下面即可. 补充知识:Keras下载的数据集以及预训练模型

解决Keras使用GPU资源耗尽的问题

相关推荐

随机推荐