对Tensorflow中Device实例的生成和管理详解

2025-04-01 00:31:00

1. 关键术语描述

kernel

在神经网络模型中，每个node都定义了自己需要完成的操作，比如要做卷积、矩阵相乘等。

可以将kernel看做是一段能够跑在具体硬件设备上的算法程序，所以即使同样的2D卷积算法，我们有基于gpu的Convolution 2D kernel实例、基于cpu的Convolution 2D kernel实例。

device

负责运行kernel的具体硬件设备抽象。每个device实例，对应系统中一个具体的处理器硬件，比如gpu:0 device, gpu:1 device, cpu:0 device。一般来说，每个device实例同时包括处理器资源、内存资源。device的抽象支持硬件设备提供的并行处理能力。

2. device是什么

为方便描述，下面我们把在tensorflow里面运行的神经网络模型都统一称为graph。

我们知道，tensorflow主要针对的是跨硬件平台、分布式、并发运行的场景，参与运算的每个硬件资源，我们都抽象为device实例，便于管理。

device的主要职责：

管理处理器资源，为支持device内部的并行计算，进一步将其抽象为thread pool或streams：

cpu：使用thread pool来管理，thread之间可支持不同程度的并行计算能力

gpu: 针对nvidia gpu，使用cuda streams来管理，根据不同的gpu型号，可支持不同数量的stream做并行计算

管理内存资源：为kernel的运行，分配和释放内存，进一步抽象为Allocator及其各种子类的实例来管理。

主机内存：

cpu kernel 计算时需要的内存。

gpu kernel的输出结果如果要放置到主机内存中时，gpu kernel也需要申请主机内存。

显存： gpu kernel 计算时需要的内存。

3. device的种类及应用场景

由于device要抽象的设备种类较多，我们主要描述一下本地运行的cpu device、gpu device实例类型。先用一个UML图来表示一下各种device抽象类的关系：

可以看到，cpu device实例使用的类是GPUCompatibleCPUDevice，主要是在ThreadPoolDevice的基础上，增加了gpu<-> cpu之间内存传输数据的优化措施。

gpu device实例使用的类是 GPUDevice 。

4. device实例的关键数据结构

我们以常用的cpu device，gpu device为例，用下图描述一下device实例的关键数据结构：

可以看到每个device实例内部都具备并行处理的能力：

GPUCompatibleCPUDevice实例
 将 cpu 的计算资源抽象为thread pool，以支持多thread之间的并发执行；
 将主机内存抽象为 CPUAllocator 实例来进行管理，为cpu kernel、gpu kernel提供主机内存的申请、释放功能；

GPUDevice实例
 将gpu的计算资源抽象为streams， 由于目前只支持NVIDIA的gpu，所以这里我们可以看作抽象为cuda streams，多个cuda streams之间的计算可以并发处理；
 通过GPUBFCAllocator实例来管理显存，为gpu kernel提供显存的申请、释放功能。

5. device实例的创建

系统中可用的device实例，由session发起创建，归属于session实例。

device的创建，使用Factory 设计模式，session会调用所有注册的device factory，逐一产出符合条件的device实例。

以DirectSession实例创建gpu device、cpu device为例，具体流程如下图所示。

为方便结合代码阅读，已包含主要的类、函数调用路径：

可以看到，最终产出的gpu device、cpu device实例，都会保存至DirectSession实例的 devices_ 表中，由DirectSession实例进行分配和使用。

6. 在graph运行阶段device的使用

在graph的创建阶段，session为每个node分配一个具体的device实例，同时为每个node创建一个具体的kernel实例，这个kernel实例将会运行在分配的device实例上。(参见Tensorflow 核心流程剖析 2 – 神经网络模型的创建和分割)

接下来，在graph的运行阶段，session会依次处理graph中的node，调度node所分配的device实例，去运行node的kernel实例。

每个kernel 在运行时，会向其分配的device，申请需要的计算资源、内存资源等，完成具体的运算操作。

上述流程如下图所示。

为方便结合代码阅读，已包含主要的类、函数调用路径：

以上这篇对Tensorflow中Device实例的生成和管理详解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

tensorflow指定GPU与动态分配GPU memory设置

在tensorflow中,默认指定占用所有的GPU,如需指定占用的GPU,可以在命令行中: export CUDA_VISIBLE_DEVICES=1 这样便是只占用1号GPU,通过命令 nvidia-smi 可以查看各个GPU的使用情况. 另外,也可以在python程序中指定GPU,并且动态分配memory,代码如下 import os import sys os.environ['CUDA_VISIBLE_DEVICES'] = sys.argv[1] import tensorflow a
tensorflow 保存模型和取出中间权重例子

下面代码的功能是先训练一个简单的模型,然后保存模型,同时保存到一个pb文件当中,后续可以从pd文件里读取权重值. import tensorflow as tf import numpy as np import os import h5py import pickle from tensorflow.python.framework import graph_util from tensorflow.python.platform import gfile #设置使用指定GPU os.envi
对Tensorflow中tensorboard日志的生成与显示详解

TensorBoard是TensorFlow下的一个可视化的工具,能够帮助我们在训练大规模神经网络过程中出现的复杂且不好理解的运算.TensorBoard能展示你训练过程中绘制的图像.网络结构等. 1. 构建简单的TensorBoard日志输出 import tensorflow as tf input1 = tf.constant([1.0, 2.0, 3.0], name="input1") input2 = tf.Variable(tf.random_uniform([3], n
对Tensorflow中Device实例的生成和管理详解

1. 关键术语描述 kernel 在神经网络模型中,每个node都定义了自己需要完成的操作,比如要做卷积.矩阵相乘等. 可以将kernel看做是一段能够跑在具体硬件设备上的算法程序,所以即使同样的2D卷积算法,我们有基于gpu的Convolution 2D kernel实例.基于cpu的Convolution 2D kernel实例. device 负责运行kernel的具体硬件设备抽象.每个device实例,对应系统中一个具体的处理器硬件,比如gpu:0 device, gpu:1 devic
对tensorflow中cifar-10文档的Read操作详解

前言在tensorflow的官方文档中得卷积神经网络一章,有一个使用cifar-10图片数据集的实验,搭建卷积神经网络倒不难,但是那个cifar10_input文件着实让我费了一番心思.配合着官方文档也算看的七七八八,但是中间还是有一些不太明白,不明白的mark一下,这次记下一些已经明白的. 研究 cifar10_input.py文件的read操作,主要的就是下面的代码: if not eval_data: filenames = [os.path.join(data_dir, 'data_b
Vue中Axios的封装与接口管理详解

目录一. Axios 的封装安装 Axios 引入接口管理统一暴露接口在组件中使用补充:封装get方法和post方法总结一. Axios 的封装在 Vue 项目中,和后台进行数据交互是频繁且不可或缺的,刚开始没进行 Axios 封装的时候,每次请求后台数据都是写的完整的路径,特别长,尤其是基准地址,每次都要复制一遍加在前面,冗余特别大.封装完 Axios 后,调用接口就简短多了,如果后期出现基准地址的改变,只需要在配置中更改一次即可. 安装 Axios npm install
C语言中堆空间的生成与释放详解

堆空间的分配和释放 #include <stdlib.h> malloc.calloc.realloc.free malloc void *malloc(size_t size); 功能:在堆中分配 size 字节的连续空间参数:size_字节数返回值:成功返回分配空间的首地址,失败返回 NULL free void free(void *ptr); 功能:释放由 malloc.calloc.realloc 分配的空间参数:ptr_空间的首地址返回值:无注意: 1.每个空间只能释放
linux 随机密码生成工具mkpasswd详解及实例

linux 随机密码生成工具mkpasswd详解及实例 mkpasswd命令生成随机复杂密码,前提安装expect,然后执行mkpasswd命令即可生成随机的密码. 一.基本的命令安装安装expect: -l # (密码的长度定义, 默认是 9) -d # (数字个数, 默认是 2) -c # (小写字符, 默认是 3) -C # (大写字符, 默认是 2) -s # (特殊字符, 默认是 1) -v (详细...) -p prog (程序设置密码, 默认是 passwd) 详细参数,用如下命
C语言中函数参数的入栈顺序详解及实例

C语言中函数参数的入栈顺序详解及实例对技术执着的人,比如说我,往往对一些问题,不仅想做到"知其然",还想做到"知其所以然".C语言可谓博大精深,即使我已经有多年的开发经验,可还是有许多问题不知其所以然.某天某地某人问我,C语言中函数参数的入栈顺序如何?从右至左,我随口回答.为什么是从右至左呢?我终究没有给出合理的解释.于是,只好做了个作业,于是有了这篇小博文. #include void foo(int x, int y, int z) { printf(&quo
Android 中Crash时如何获取异常信息详解及实例

Android 中Crash时如何获取异常信息详解前言: 大家都知道,Android应用不可避免的会发生crash,无论你的程序写的多完美,总是无法完全避免crash的发生,可能是由于Android系统底层的bug,也可能是由于不充分的机型适配或者是糟糕的网络状况.当crash发生时,系统会kill掉你的程序,表现就是闪退或者程序已停止运行,这对用户来说是很不友好的,也是开发者所不愿意看到的,更糟糕的是,当用户发生了crash,开发者却无法得知程序为何crash,即便你想去解决这个crash,
有关C++中随机函数rand() 和srand() 的用法详解

一.rand() 函数名: rand 功能: 随机数发生器用法: int rand(void); 所在头文件: stdlib.h 函数说明 : rand()的内部实现是用线性同余法做的,它不是真的随机数,因其周期特别长,故在一定的范围里可看成是随机的. rand()返回一随机数值的范围在0至RAND_MAX 间.RAND_MAX的范围最少是在32767之间(int).用 unsigned int 双字节是65535,四字节是4294967295的整数范围.0~RAND
python生成随机图形验证码详解

使用python生成随机图片验证码,需要使用pillow模块 1.安装pillow模块 pip install pillow 2.pillow模块的基本使用 1.创建图片 from PIL import Image #定义使用Image类实例化一个长为400px,宽为400px,基于RGB的(255,255,255)颜色的图片 img1=Image.new(mode="RGB",size=(400,400),color=(255,255,255)) #把生成的图片保存为"pi

对Tensorflow中Device实例的生成和管理详解

相关推荐

随机推荐