keras 多gpu并行运行案例

2026-03-04 15:16:18

一、多张gpu的卡上使用keras

有多张gpu卡时，推荐使用tensorflow 作为后端。使用多张gpu运行model，可以分为两种情况，一是数据并行，二是设备并行。

二、数据并行

数据并行将目标模型在多个设备上各复制一份，并使用每个设备上的复制品处理整个数据集的不同部分数据。

利用multi_gpu_model实现

keras.utils.multi_gpu_model(model, gpus=None, cpu_merge=True, cpu_relocation=False)

具体来说，该功能实现了单机多 GPU 数据并行性。它的工作原理如下：

将模型的输入分成多个子批次。

在每个子批次上应用模型副本。每个模型副本都在专用 GPU 上执行。

将结果（在 CPU 上）连接成一个大批量。

例如，如果你的 batch_size 是 64，且你使用 gpus=2，那么我们将把输入分为两个 32 个样本的子批次，在 1 个 GPU 上处理 1 个子批次，然后返回完整批次的 64 个处理过的样本。

参数

model: 一个 Keras 模型实例。为了避免OOM错误，该模型可以建立在 CPU 上，详见下面的使用样例。

gpus: 整数 >= 2 或整数列表，创建模型副本的 GPU 数量，或 GPU ID 的列表。

cpu_merge: 一个布尔值，用于标识是否强制合并 CPU 范围内的模型权重。

cpu_relocation: 一个布尔值，用来确定是否在 CPU 的范围内创建模型的权重。如果模型没有在任何一个设备范围内定义，您仍然可以通过激活这个选项来拯救它。

一个 Keras Model 实例，它可以像初始 model 参数一样使用，但它将工作负载分布在多个 GPU 上。

例子

import tensorflow as tf
from keras.applications import Xception
from keras.utils import multi_gpu_model
import numpy as np

num_samples = 1000
height = 224
width = 224
num_classes = 1000

# 实例化基础模型（或者「模版」模型）。
# 我们推荐在 CPU 设备范围内做此操作，
# 这样模型的权重就会存储在 CPU 内存中。
# 否则它们会存储在 GPU 上，而完全被共享。
with tf.device('/cpu:0'):
 model = Xception(weights=None,
   input_shape=(height, width, 3),
   classes=num_classes)

# 复制模型到 8 个 GPU 上。
# 这假设你的机器有 8 个可用 GPU。
parallel_model = multi_gpu_model(model, gpus=8)
parallel_model.compile(loss='categorical_crossentropy',
   optimizer='rmsprop')

# 生成虚拟数据
x = np.random.random((num_samples, height, width, 3))
y = np.random.random((num_samples, num_classes))

# 这个 `fit` 调用将分布在 8 个 GPU 上。
# 由于 batch size 是 256, 每个 GPU 将处理 32 个样本。
parallel_model.fit(x, y, epochs=20, batch_size=256)

# 通过模版模型存储模型（共享相同权重）：
model.save('my_model.h5')

注意：

要保存多 GPU 模型，请通过模板模型（传递给 multi_gpu_model 的参数）调用 .save(fname) 或 .save_weights(fname) 以进行存储，而不是通过 multi_gpu_model 返回的模型。

即要用model来保存，而不是parallel_model来保存。

使用ModelCheckpoint() 遇到的问题

使用ModelCheckpoint()会遇到下面的问题：

TypeError: can't pickle ...(different text at different situation) objects

这个问题和保存问题类似，ModelCheckpoint() 会自动调用parallel_model.save()来保存，而不是model.save()，因此我们要自己写一个召回函数，使得ModelCheckpoint()用model.save()。

修改方法：

class ParallelModelCheckpoint(ModelCheckpoint):
 def __init__(self,model,filepath, monitor='val_loss', verbose=0,
   save_best_only=False, save_weights_only=False,
   mode='auto', period=1):
 self.single_model = model
 super(ParallelModelCheckpoint,self).__init__(filepath, monitor, verbose,save_best_only, save_weights_only,mode, period)

 def set_model(self, model):
 super(ParallelModelCheckpoint,self).set_model(self.single_model)

checkpoint = ParallelModelCheckpoint(original_model)

ParallelModelCheckpoint调用的时候，model应该为原来的model而不是parallel_model。

EarlyStopping 没有此类问题

二、设备并行

设备并行适用于多分支结构，一个分支用一个gpu。

这种并行方法可以通过使用TensorFlow device scopes实现，下面是一个例子：

# Model where a shared LSTM is used to encode two different sequences in parallel
input_a = keras.Input(shape=(140, 256))
input_b = keras.Input(shape=(140, 256))

shared_lstm = keras.layers.LSTM(64)

# Process the first sequence on one GPU
with tf.device_scope('/gpu:0'):
 encoded_a = shared_lstm(tweet_a)
# Process the next sequence on another GPU
with tf.device_scope('/gpu:1'):
 encoded_b = shared_lstm(tweet_b)

# Concatenate results on CPU
with tf.device_scope('/cpu:0'):
 merged_vector = keras.layers.concatenate([encoded_a, encoded_b],
      axis=-1)

三、分布式运行

keras的分布式是利用TensorFlow实现的，要想完成分布式的训练，你需要将Keras注册在连接一个集群的TensorFlow会话上：

server = tf.train.Server.create_local_server()
sess = tf.Session(server.target)

from keras import backend as K
K.set_session(sess)

以上这篇keras 多gpu并行运行案例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

Keras设定GPU使用内存大小方式(Tensorflow backend)

通过设置Keras的Tensorflow后端的全局变量达到. import os import tensorflow as tf import keras.backend.tensorflow_backend as KTF def get_session(gpu_fraction=0.3): '''Assume that you have 6GB of GPU memory and want to allocate ~2GB''' num_threads = os.environ.get('OM
keras 解决加载lstm+crf模型出错的问题

错误展示 new_model = load_model("model.h5") 报错: 1.keras load_model valueError: Unknown Layer :CRF 2.keras load_model valueError: Unknown loss function:crf_loss 错误修改 1.load_model修改源码:custom_objects = None 改为 def load_model(filepath, custom_objects, c
浅谈keras中的目标函数和优化函数MSE用法

mean_squared_error / mse 均方误差,常用的目标函数,公式为((y_pred-y_true)**2).mean() model = Sequential() model.add(Dense(64, init='uniform', input_dim=10)) model.add(Activation('tanh')) model.add(Activation('softmax')) sgd = SGD(lr=0.1, decay=1e-6, momentum=0.9, ne
使用keras和tensorflow保存为可部署的pb格式

Keras保存为可部署的pb格式加载已训练好的.h5格式的keras模型传入如下定义好的export_savedmodel()方法内即可成功保存 import keras import os import tensorflow as tf from tensorflow.python.util import compat from keras import backend as K def export_savedmodel(model): ''' 传入keras model会自动保存为pb
使用Keras加载含有自定义层或函数的模型操作

当我们导入的模型含有自定义层或者自定义函数时,需要使用custom_objects来指定目标层或目标函数. 例如: 我的一个模型含有自定义层"SincConv1D",需要使用下面的代码导入: from keras.models import load_model model = load_model('model.h5', custom_objects={'SincConv1D': SincConv1D}) 如果不加custom_objects指定目标层Layer,则会出现以下报错:
keras 多gpu并行运行案例

一.多张gpu的卡上使用keras 有多张gpu卡时,推荐使用tensorflow 作为后端.使用多张gpu运行model,可以分为两种情况,一是数据并行,二是设备并行. 二.数据并行数据并行将目标模型在多个设备上各复制一份,并使用每个设备上的复制品处理整个数据集的不同部分数据. 利用multi_gpu_model实现 keras.utils.multi_gpu_model(model, gpus=None, cpu_merge=True, cpu_relocation=False) 具体来说
Tensorflow实现多GPU并行方式

Tebsorflow开源实现多GPU训练cifar10数据集:cifar10_multi_gpu_train.py Tensorflow开源实现cifar10神经网络:cifar10.py Tensorflow中的并行分为模型并行和数据并行.模型并行需要根据不同模型设计不同的并行方式,其主要原理是将模型中不同计算节点放在不同硬件资源上运算.比较通用且能简便地实现大规模并行的方式是数据并行,同时使用多个硬件资源来计算不同batch的数据梯度,然后汇总梯度进行全局更新. 数据并行几乎适用于所有深度学
解决Keras使用GPU资源耗尽的问题

我们在使用GPU资源进行训练的时候,可能会发生资源耗尽的情况,那么在在这种情况,我们需要对GPU的资源进行合理的安排,具体使用办法如下: 框架:Tensorflow和Keras 方法 import tensorflow as tf import keras.backend.tensorflow_backend as KTF config = tf.ConfigProto() config.gpu_options.allow_growth=True #不全部占满显存, 按需分配 sess = tf
TensorFlow和keras中GPU使用的设置操作

1. 训练运行时候指定GPU 运行时候加一行代码: CUDA_VISIBLE_DEVICES=1 python train.py 2. 运行过程中按需或者定量分配GPU tensorflow直接在开启Session时候加几行代码就行,而Keras指定GPU,并限制按需用量和TensorFlow不太一样,因为keras训练是封装好的,不好对Session操作.如下是两种对应的操作. keras中的操作: import os import tensorflow as tf from keras.ba
python开启多个子进程并行运行的方法

本文实例讲述了python开启多个子进程并行运行的方法.分享给大家供大家参考.具体如下: 这个python代码创建了多个process子进程,创建完成后先start(),最后统一join,这样所有子进程会并行执行. from multiprocessing import Process import sys, os import time def timetask(times): time.sleep(times) print time.localtime() def works(func, a
Java实现的两个线程同时运行案例

本文实例讲述了Java实现的两个线程同时运行.分享给大家供大家参考,具体如下: /** * 两个案例同时运行案例 * 1:这个两个线程并不是有规律的运行而是有没有规律的交替运行 */ package com.test3; public class Demo10_3 { /** * @param args */ public static void main(String[] args) { // TODO Auto-generated method stub Pig pig=new Pig(10
pytorch 指定gpu训练与多gpu并行训练示例

一. 指定一个gpu训练的两种方法: 1.代码中指定 import torch torch.cuda.set_device(id) 2.终端中指定 CUDA_VISIBLE_DEVICES=1 python 你的程序其中id就是你的gpu编号二. 多gpu并行训练: torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0) 该函数实现了在module级别上的数据并行使用,注意batch size要大于G
已安装tensorflow-gpu,但keras无法使用GPU加速的解决

问题我们使用anoconda创建envs环境下的Tensorflow-gpu版的,但是当我们在Pycharm设置里的工程中安装Keras后,发现调用keras无法使用gpu进行加速,且使用的是cpu在运算,这就违背了我们安装Tensorflow-gpu版初衷了. 原因因为我们同时安装了tensorflow和tensorflow-gpu(在-Anaconda3\envs\fyy_tf\Lib\site-packages中可以找到他们的文件夹),使用keras时会默认调用tensorflow,从
如何使用gpu.js改善JavaScript的性能

你是否曾经尝试过运行复杂的计算,却发现它需要花费很长时间,并且拖慢了你的进程? 有很多方法可以解决这个问题,例如使用 web worker 或后台线程.GPU 减轻了 CPU 的处理负荷,给了 CPU 更多的空间来处理其他进程.同时,web worker 仍然运行在 CPU 上,但是运行在不同的线程上. 在该初学者指南中,我们将演示如何使用GPU.js执行复杂的数学计算并提高 JavaScript 应用的性能. 什么是 GPU.js? GPU.js 是一个针对 Web 和 Node.js 构建的

keras 多gpu并行运行案例

相关推荐

随机推荐