解决Keras使用GPU资源耗尽的问题
我们在使用GPU资源进行训练的时候,可能会发生资源耗尽的情况,那么在在这种情况,我们需要对GPU的资源进行合理的安排,具体使用办法如下:
框架:Tensorflow和Keras
方法
import tensorflow as tf import keras.backend.tensorflow_backend as KTF config = tf.ConfigProto() config.gpu_options.allow_growth=True #不全部占满显存, 按需分配 sess = tf.Session(config=config) KTF.set_session(sess) # 设置session
通过这种方法,就能合理的使用GPU资源了。
至少到目前位置,我自己从程序没出现资源耗尽的情况,当然,对于batchsize的设置,一定要设置在合理的范围,所谓合理,大家自己体会。
补充知识:keras使用GPU的一些坑
keras安装
conda install tensorflow-gpu
pip install keras
注意:不要使用conda安装keras,会检测依赖,默认安装上tensorflow的CPU版本。
keras运行报错,tensorflow/stream_executor/cuda/cuda_dnn.cc:329 Could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
解决方法:
增加如下代码:
gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.5) config = tf.ConfigProto(gpu_options=gpu_options) config.gpu_options.allow_growth = True session = tf.Session(config=config)
以上这篇解决Keras使用GPU资源耗尽的问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。
相关推荐
-
基于Keras 循环训练模型跑数据时内存泄漏的解决方式
在使用完模型之后,添加这两行代码即可清空之前model占用的内存: import tensorflow as tf from keras import backend as K K.clear_session() tf.reset_default_graph() 补充知识:keras 多个模型测试阶段速度越来越慢问题的解决方法 问题描述 在实际应用或比赛中,经常会用到交叉验证(10倍或5倍)来提高泛化能力,这样在预测时需要加载多个模型.常用的方法为 mods = [] from keras.ut
-
Tensorflow与Keras自适应使用显存方式
Tensorflow支持基于cuda内核与cudnn的GPU加速,Keras出现较晚,为Tensorflow的高层框架,由于Keras使用的方便性与很好的延展性,之后更是作为Tensorflow的官方指定第三方支持开源框架. 但两者在使用GPU时都有一个特点,就是默认为全占满模式.在训练的情况下,特别是分步训练时会导致显存溢出,导致程序崩溃. 可以使用自适应配置来调整显存的使用情况. 一.Tensorflow 1.指定显卡 代码中加入 import os os.environ["CUDA_VIS
-
解决pytorch GPU 计算过程中出现内存耗尽的问题
Pytorch GPU运算过程中会出现:"cuda runtime error(2): out of memory"这样的错误.通常,这种错误是由于在循环中使用全局变量当做累加器,且累加梯度信息的缘故,用官方的说法就是:"accumulate history across your training loop".在默认情况下,开启梯度计算的Tensor变量是会在GPU保持他的历史数据的,所以在编程或者调试过程中应该尽力避免在循环中累加梯度信息. 下面举个栗子: 上代
-
Keras 快速解决OOM超内存的问题
如果在Keras内部多次使用同一个Model,例如在不同的数据集上训练同一个模型进而得到结果,会存在内存泄露的问题.在运行几次循环之后,就会报错OOM. 解决方法是在每个代码后面接clear_session()函数,显示的关闭TFGraph,再重启. 详情参考 https://keras.io/backend/#backend-functions. from keras import backend as K K.clear_session() 补充知识:Keras多次加载模型进行测试时内存溢出
-
解决Keras使用GPU资源耗尽的问题
我们在使用GPU资源进行训练的时候,可能会发生资源耗尽的情况,那么在在这种情况,我们需要对GPU的资源进行合理的安排,具体使用办法如下: 框架:Tensorflow和Keras 方法 import tensorflow as tf import keras.backend.tensorflow_backend as KTF config = tf.ConfigProto() config.gpu_options.allow_growth=True #不全部占满显存, 按需分配 sess = tf
-
Linux磁盘空间被未知资源耗尽的解决方法
在linux中,当我们使用rm在linux上删除了大文件,但是如果有进程打开了这个大文件,却没有关闭这个文件的句柄,那么linux内核还是不会释放这个文件的磁盘空间,最后造成磁盘空间占用100%,整个系统无法正常运行.这种情况下,通过df和du命令查找的磁盘空间,两者是无法匹配的,可能df显示磁盘100%,而du查找目录的磁盘容量占用却很小. 遇到这种情况,基本可以断定是某些大文件被某些程序占用了,并且这些大文件已经被删除了,但是对应的文件句柄没有被某些程序关闭,造成内核无法回收这些文件占用的空
-
已安装tensorflow-gpu,但keras无法使用GPU加速的解决
问题 我们使用anoconda创建envs环境下的Tensorflow-gpu版的,但是当我们在Pycharm设置里的工程中安装Keras后,发现调用keras无法使用gpu进行加速,且使用的是cpu在运算,这就违背了我们安装Tensorflow-gpu版初衷了. 原因 因为我们同时安装了tensorflow和tensorflow-gpu(在-Anaconda3\envs\fyy_tf\Lib\site-packages中可以找到他们的文件夹),使用keras时会默认调用tensorflow,从
-
C#解决文件被占用资源,无法删除或修改的方法
复制代码 代码如下: Thread parameterThread_t = null; private void Print_DetailForm_Shown(object sender, EventArgs e) { parameterThread_t = new Thread(new ParameterizedThreadStart(this.openThread_telnet)); //parameterThread_t.IsBackground = false
-
解决Tensorflow占用GPU显存问题
我使用Pytorch进行模型训练时发现真正模型本身对于显存的占用并不明显,但是对应的转换为tensorflow后(权重也进行了转换),发现Python-tensorflow在使用时默认吃掉所有显存,并且不手动终结程序的话显存并不释放(我有两个序贯的模型,前面一个跑完后并不释放占用显存)(https://github.com/tensorflow/tensorflow/issues/1727),这一点对于后续的工作有很大的影响. 后面发现python-tensorflow限制显存有两种方法: 1.
-
解决Keras 与 Tensorflow 版本之间的兼容性问题
在利用Keras进行实验的时候,后端为Tensorflow,出现了以下问题: 1. 服务器端激活Anaconda环境跑程序时,实验结果很差. 环境:tensorflow 1.4.0,keras 2.1.5 2. 服务器端未激活Anaconda环境跑程序时,实验结果回到正常值. 环境:tensorflow 1.7.0,keras 2.0.8 3. 自己PC端跑相同程序时,实验结果回到正常值. 环境:tensorflow 1.6.0,keras 2.1.5 怀疑实验结果的异常性是由于Keras和Te
-
Keras设定GPU使用内存大小方式(Tensorflow backend)
通过设置Keras的Tensorflow后端的全局变量达到. import os import tensorflow as tf import keras.backend.tensorflow_backend as KTF def get_session(gpu_fraction=0.3): '''Assume that you have 6GB of GPU memory and want to allocate ~2GB''' num_threads = os.environ.get('OM
-
keras 多gpu并行运行案例
一.多张gpu的卡上使用keras 有多张gpu卡时,推荐使用tensorflow 作为后端.使用多张gpu运行model,可以分为两种情况,一是数据并行,二是设备并行. 二.数据并行 数据并行将目标模型在多个设备上各复制一份,并使用每个设备上的复制品处理整个数据集的不同部分数据. 利用multi_gpu_model实现 keras.utils.multi_gpu_model(model, gpus=None, cpu_merge=True, cpu_relocation=False) 具体来说
-
完美解决keras保存好的model不能成功加载问题
前两天调用之前用keras(tensorflow做后端)训练好model,却意外发现报错了!!之前从来没有过报错!!错误内容粘贴如下: File "h5py_objects.pyx", line 54, in h5py._objects.with_phil.wrapper (C:\Minonda\conda-bld\h5py_1496885653697\work\h5py_objects.c:2867) File "h5py_objects.pyx", line 5
-
解决Keras自带数据集与预训练model下载太慢问题
keras的数据集源码下载地址太慢.尝试过修改源码中的下载地址,直接报错. 从源码或者网络资源下好数据集,下载好以后放到目录 ~/.keras/datasets/ 下面. 其中:cifar10需要改文件名为cifar-10-batches-py.tar.gz ,cifar100改为 cifar-100-python.tar.gz , mnist改为 mnist.npz 预训练models放到 ~/.keras/models/ 路径下面即可. 补充知识:Keras下载的数据集以及预训练模型
随机推荐
- JS验证URL函数 正则
- mysql中复制表结构的方法小结
- Oracle ORA-22908(NULL表值的参考)异常分析与解决方法
- asp.net Repeater绑定时使用函数
- js停止冒泡和阻止浏览器默认行为的简单方法
- js的延迟执行问题分析
- javaScript矢量图表库-gRaphael几行代码实现精美的条形图/饼图/点图/曲线图
- Python内置数据类型详解
- Ajax 网址备忘
- VC中实现GB2312、BIG5、Unicode编码转换的方法
- MongoDB错误32-bit servers don't have journaling enabled by default解决方法
- 深入Java对象的地址的使用分析
- js实现文字垂直滚动和鼠标悬停效果
- win2000/2003下整合IIS+Tomcat5支持jsp
- java中参数传递方式详解
- Java实例化类详解
- 讲解python参数和作用域的使用
- ashx介绍以及ashx文件与aspx文件之间的区别
- C#实现将数组内元素打乱顺序的方法
- adb wireless进行Android手机调试详解