pytorch 如何在GPU上训练
1.网络模型转移到CUDA上
net = AlexNet() net.cuda()#转移到CUDA上
2.将loss转移到CUDA上
criterion = nn.CrossEntropyLoss() criterion = criterion.cuda()
这一步不做也可以,因为loss是根据out、label算出来的
loss = criterion(out, label)
只要out、label在CUDA上,loss自然也在CUDA上了,但是发现不转移到CUDA上准确率竟然降低了1%
3.将数据集转移到CUDA上
这里要解释一下数据集使用方法
#download the dataset train_set = CIFAR10("./data_cifar10", train=True, transform=data_tf, download=True) train_data = torch.utils.data.DataLoader(train_set, batch_size=64, shuffle=True)
dataset是把所有的input,label都制作成了一个大的多维数组
dataloader是在这个大的多维数组里采样制作成batch,用这些batch来训练
for im, label in train_data: i = i + 1 im = im.cuda()#把数据迁移到CUDA上 im = Variable(im)#把数据放到Variable里 label = label.cuda() label =Variable(label) out = net(im)#the output should have the size of (N,10)
遍历batch的时候,首先要把拿出来的Image、label都转移到CUDA上,这样接下来的计算都是在CUDA上了
开始的时候只在转成Variable以后才迁移到CUDA上,这样在网络传播过程中就数据不是在CUDA上了,所以一直报错
训练网络时指定gpu显卡
查看有哪些可用的gpu
nvidia -smi
实时查看gpu信息1代表每1秒刷新一次
watch -n -1 nvidia -smi
指定使用的gpu
import os # 使用第一张与第三张GPU卡 os.environ["CUDA_VISIBLE_DEVICES"] = "0,3"
以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。
相关推荐
-
pytorch使用horovod多gpu训练的实现
pytorch在Horovod上训练步骤分为以下几步: import torch import horovod.torch as hvd # Initialize Horovod 初始化horovod hvd.init() # Pin GPU to be used to process local rank (one GPU per process) 分配到每个gpu上 torch.cuda.set_device(hvd.local_rank()) # Define dataset... 定义d
-
pytorch 使用单个GPU与多个GPU进行训练与测试的方法
如下所示: device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")#第一行代码 model.to(device)#第二行代码 首先是上面两行代码放在读取数据之前. mytensor = my_tensor.to(device)#第三行代码 然后是第三行代码.这句代码的意思是将所有最开始读取数据时的tersor变量copy一份到device所指定的GPU上去,之后的运算都在GPU上
-
用Pytorch训练CNN(数据集MNIST,使用GPU的方法)
听说pytorch使用比TensorFlow简单,加之pytorch现已支持windows,所以今天装了pytorch玩玩,第一件事还是写了个简单的CNN在MNIST上实验,初步体验的确比TensorFlow方便. 参考代码(在莫烦python的教程代码基础上修改)如下: import torch import torch.nn as nn from torch.autograd import Variable import torch.utils.data as Data import tor
-
pytorch 两个GPU同时训练的解决方案
使用场景 我有两个GPU卡.我希望我两个GPU能并行运行两个网络模型. 代码 错误代码1: #对于0号GPU os.environ['CUDA_VISIBLE_DEVICES']='0,1' device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") #对于1号GPU os.environ['CUDA_VISIBLE_DEVICES']='0,1' device = torch.de
-
pytorch使用指定GPU训练的实例
本文适合多GPU的机器,并且每个用户需要单独使用GPU训练. 虽然pytorch提供了指定gpu的几种方式,但是使用不当的话会遇到out of memory的问题,主要是因为pytorch会在第0块gpu上初始化,并且会占用一定空间的显存.这种情况下,经常会出现指定的gpu明明是空闲的,但是因为第0块gpu被占满而无法运行,一直报out of memory错误. 解决方案如下: 指定环境变量,屏蔽第0块gpu CUDA_VISIBLE_DEVICES = 1 main.py 这句话表示只有第1块
-
解决pytorch多GPU训练保存的模型,在单GPU环境下加载出错问题
背景 在公司用多卡训练模型,得到权值文件后保存,然后回到实验室,没有多卡的环境,用单卡训练,加载模型时出错,因为单卡机器上,没有使用DataParallel来加载模型,所以会出现加载错误. 原因 DataParallel包装的模型在保存时,权值参数前面会带有module字符,然而自己在单卡环境下,没有用DataParallel包装的模型权值参数不带module.本质上保存的权值文件是一个有序字典. 解决方法 1.在单卡环境下,用DataParallel包装模型. 2.自己重写Load函数,灵活.
-
pytorch 指定gpu训练与多gpu并行训练示例
一. 指定一个gpu训练的两种方法: 1.代码中指定 import torch torch.cuda.set_device(id) 2.终端中指定 CUDA_VISIBLE_DEVICES=1 python 你的程序 其中id就是你的gpu编号 二. 多gpu并行训练: torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0) 该函数实现了在module级别上的数据并行使用,注意batch size要大于G
-
关于pytorch多GPU训练实例与性能对比分析
以下实验是我在百度公司实习的时候做的,记录下来留个小经验. 多GPU训练 cifar10_97.23 使用 run.sh 文件开始训练 cifar10_97.50 使用 run.4GPU.sh 开始训练 在集群中改变GPU调用个数修改 run.sh 文件 nohup srun --job-name=cf23 $pt --gres=gpu:2 -n1 bash cluster_run.sh $cmd 2>&1 1>>log.cf50_2GPU & 修改 –gres=gpu:
-
pytorch 如何在GPU上训练
1.网络模型转移到CUDA上 net = AlexNet() net.cuda()#转移到CUDA上 2.将loss转移到CUDA上 criterion = nn.CrossEntropyLoss() criterion = criterion.cuda() 这一步不做也可以,因为loss是根据out.label算出来的 loss = criterion(out, label) 只要out.label在CUDA上,loss自然也在CUDA上了,但是发现不转移到CUDA上准确率竟然降低了1% 3.
-
详解pytorch的多GPU训练的两种方式
目录 方法一:torch.nn.DataParallel 1. 原理 2. 常用的配套代码如下 3. 优缺点 方法二:torch.distributed 1. 代码说明 方法一:torch.nn.DataParallel 1. 原理 如下图所示:小朋友一个人做4份作业,假设1份需要60min,共需要240min. 这里的作业就是pytorch中要处理的data. 与此同时,他也可以先花3min把作业分配给3个同伙,大家一起60min做完.最后他再花3min把作业收起来,一共需要66min. 这个
-
Pytorch 多块GPU的使用详解
注:本文针对单个服务器上多块GPU的使用,不是多服务器多GPU的使用. 在一些实验中,由于Batch_size的限制或者希望提高训练速度等原因,我们需要使用多块GPU.本文针对Pytorch中多块GPU的使用进行说明. 1. 设置需要使用的GPU编号 import os os.environ["CUDA_VISIBLE_DEVICES"] = "0,4" ids = [0,1] 比如我们需要使用第0和第4块GPU,只用上述三行代码即可. 其中第二行指程序只能看到第1
-
Pytorch 神经网络—自定义数据集上实现教程
第一步.导入需要的包 import os import scipy.io as sio import numpy as np import torch import torch.nn as nn import torch.backends.cudnn as cudnn import torch.optim as optim from torch.utils.data import Dataset, DataLoader from torchvision import transforms, ut
-
pytorch VGG11识别cifar10数据集(训练+预测单张输入图片操作)
首先这是VGG的结构图,VGG11则是红色框里的结构,共分五个block,如红框中的VGG11第一个block就是一个conv3-64卷积层: 一,写VGG代码时,首先定义一个 vgg_block(n,in,out)方法,用来构建VGG中每个block中的卷积核和池化层: n是这个block中卷积层的数目,in是输入的通道数,out是输出的通道数 有了block以后,我们还需要一个方法把形成的block叠在一起,我们定义这个方法叫vgg_stack: def vgg_stack(num_conv
-
Pytorch 高效使用GPU的操作
前言 深度学习涉及很多向量或多矩阵运算,如矩阵相乘.矩阵相加.矩阵-向量乘法等.深层模型的算法,如BP,Auto-Encoder,CNN等,都可以写成矩阵运算的形式,无须写成循环运算.然而,在单核CPU上执行时,矩阵运算会被展开成循环的形式,本质上还是串行执行.GPU(Graphic Process Units,图形处理器)的众核体系结构包含几千个流处理器,可将矩阵运算并行化执行,大幅缩短计算时间.随着NVIDIA.AMD等公司不断推进其GPU的大规模并行架构,面向通用计算的GPU已成为加速可并
随机推荐
- 解析posix与perl标准的正则表达式区别
- vue之数据交互实例代码
- 深入理解JS DOM事件机制
- Android实现二维码扫描和生成的简单方法
- 深入理解java异常处理机制的原理和开发应用
- asp.net运算符之逻辑运算符以及其他运算符介绍与实例
- 实例详解jQuery结合GridView控件的使用方法
- 深度剖析使用python抓取网页正文的源码
- python中利用Future对象异步返回结果示例代码
- jquery用offset()方法获得元素的xy坐标
- 怎样娶到比尔盖茨的女儿
- shell查找符号链接及其指向目标的方法介绍
- C++ decltype类型说明符
- jQuery实现选中行变色效果(实例讲解)
- SVG描边动画
- Javascript es7中比较实用的两个方法示例
- 浅谈javascript中关于日期和时间的基础知识
- C#使用系统方法发送异步邮件完整实例
- Zend Framework实现将session存储在memcache中的方法
- 同时提取多条新闻中的文本一例