使用pytorch时所遇到的一些问题总结

2025-03-01 04:08:33

使用pytorch时所遇到的问题总结

1、ubuntu vscode切换虚拟环境

在ubuntu系统上，配置工作区文件夹所使用的虚拟环境。之前笔者误以为只需要在vscode内置的终端上将虚拟环境切换过来即可，后来发现得通过配置vscode的解释器（interpreter）

具体方法如下：

选中需要配置的文件夹，然后点击vscode左下角的写有“Python ***”的位置（或者使用快捷键“ctrl+shift+p”）--》选择文件夹--》从解释器列表中选择要用的解释器。

完成设置后，会在文件夹下面多出一个名为“.vscode”的文件夹，其中会多出一个名为“settings.json”的文件，经过设置后该文件内会多出一个条目来指向虚拟环境中的python的路径，

例如：

python.pythonPath:"/home/lh/anaconda3/envs/pytorch/bin/python"

2、使用DataLoader时报错：

raise RuntimeError('already started')

出错位置在使用DataLoader时，将参数“num_workers”设置为大于0的值了，推测原因是没有打开多线程功能，解决方法为将num_workers设置为0。

如果需要要使用多个子线程来加载数据，那么就需要让主程序在“if __name__ = 'main'"中运行。

3、pytorch中使用TensorBoard

问题（1）：

Import Error:TensorBoard logging requires TensorBoard with Python summary writer installed

这是由于当前的环境中没有安装TensorBoard。如果电脑上安装有anaconda，那么直接使用命令“conda install tensorboard”即可。

问题（2）：调出tensorboard界面

当在程序中调用SummaryWriter之后，在控制台中会给出如下信息：

其中需要注意的是“--port 41889”。然后我们在控制台中输入命令“tensorboard --logdir='log' --port=41889”，--logdir用来指向之前所指定的日志目录，--port就是之前控制台中给出的端口号。输入指令后，控制台中会给出一个网址，打开该网址就可以在浏览器中打开tensorboard界面了。

4、pytorch使用dataloader时，

报出“TypeError:default_collect:batch must contain tensors, numpy arrays, numbers,dicts or lists; found <class 'PIL.Image.Image'>”

这是因为在创建torchvision.Dataset对象的时候没有将数据库内的图像转为torch张量，在创建数据库对象的时候将参数transform进行如下设置就可以了：transform=transform.ToTensor()。

5、报错

RuntimeError:Input type (torch.FloatTensor) and weight type (torch.cuda.FloatTensor) should be the same

这是由于传入模型的数据是放在CPU内存中的，而模型本身被放置在GPU内存中了。因此只需要将输入的数据放置到GPU内存中就可以解决问该问题了。

6、pytorch，同名函数后面加一个'_'，例如：'clamp()'与'clamp_()'

一般来说，如果函数后带了一个下划线，就意味着在改变当前张量的值的同时返回一个修改后的副本；如果不带下划线，那么就只返回修改后的副本，而不改变原来张量的值。

例如：

import torch
a=torch.rand(3)
print('a:{}'.format(a))
print("clamp效果：")
b=a.clamp(0, 0.5)
print('b:{}'.format(b))
print('a:{}'.format(a))
print("clamp_效果：")
b=a.clamp_(0, 0.5)
print('b:{}'.format(b))
print('a:{}'.format(a))

结果为如下图，可见张量a在调用clamp_函数后其本身的值也会发生改变，但是调用clamp的时候则只会返回一个修改后的副本。

7、python中(1)与(1,)的区别

‘(1)'这种写法得到的是一个int类型的数据，而‘(1, )'得到的是一个turple类型的数据。验证如下：

8、tqdm进度条

tqdm.update()所传入的参数指的是进度条前进的步长，而不是当前进度。

补充：Pytorch中常见的报错解决方案

本文用于记录所在pytorch所遇到过的运行时错误，持续更新。

1、变量所在设备（CPU，GPU）不一致问题

RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the same

可能原因：现在假设代码要在GPU上运行，并且你已经进行my_model.to(device)操作了。注意只有my_model中的属性（也就是self.开头的变量）才会进行.to(device)。如果出现这个错误，可能是有的中间变量需要手动再显式地.to(device)一下～

2、在Conv2d中padding或stride的参数个数错误的问题

RuntimeError: expected padding to be a single integer value or a list of 1 values to match the convolution dimensions, but got padding=[0, 0]

原因一：

对于一张二维图片来说，它的padding也是二维的，即横、纵方向上都需要设置padding（当然这两个数字一般是一样的）。现在为什么提示我们padding应该是一维的呢？一定是输入数据维度不对。

原因二：

上面说的是最可能的情况，如果你发现图片已经是四维的却还有这个报错，请检查你Conv2d()的输入参数。

例如，如果你把stride设置为一维的[3]而不是二维3（注意3会被自动处理成[3, 3]），同时padding为二维的0。

pytorch发现stride是一维的，而padding却是二维的，就会报错。

3、inplace operation问题

one of the variables needed for gradient computation has been modified by an inplace operationone of the variables needed for gradient computation has been modified by an inplace operation

inplace操作可能会使得backward无法进行（因为当前Tensor可能会在另一个地方被用到），比如forward出现了如下代码：

x += y

你可能需要该成：

x = x + y

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。

浅谈Pytorch中autograd的若干(踩坑)总结

关于Variable和Tensor 旧版本的Pytorch中,Variable是对Tensor的一个封装:在Pytorch大于v0.4的版本后,Varible和Tensor合并了,意味着Tensor可以像旧版本的Variable那样运行,当然新版本中Variable封装仍旧可以用,但是对Varieble操作返回的将是一个Tensor. import torch as t from torch.autograd import Variable a = t.ones(3,requires_grad=
解决Pytorch 加载训练好的模型遇到的error问题

这是一个非常愚蠢的错误 debug的时候要好好看error信息提醒自己切记好好对待error!切记!切记! -----------------------分割线---------------- pytorch 已经非常友好了保存模型和加载模型都只需要一条简单的命令 #保存整个网络和参数 torch.save(your_net, 'save_name.pkl') #加载保存的模型 net = torch.load('save_name.pkl') 因为我比较懒我就想直接把整个网络都保存下来,然
解决pytorch 保存模型遇到的问题

今天用pytorch保存模型时遇到bug Can't pickle <class 'torch._C._VariableFunctions'> 在google上查找原因,发现是保存时保存了整个模型的原因,而模型中有一些自定义的参数将 torch.save(model,save_path) 改为 torch.save(model.state_dict(),save_path) 然后载入模型也做相应的更改就好了补充:pytorch训练模型的一些坑 1. 图像读取 opencv的python和c
使用pytorch时所遇到的一些问题总结

使用pytorch时所遇到的问题总结 1.ubuntu vscode切换虚拟环境在ubuntu系统上,配置工作区文件夹所使用的虚拟环境.之前笔者误以为只需要在vscode内置的终端上将虚拟环境切换过来即可,后来发现得通过配置vscode的解释器(interpreter) 具体方法如下: 选中需要配置的文件夹,然后点击vscode左下角的写有"Python ***"的位置(或者使用快捷键"ctrl+shift+p")-->选择文件夹-->从解释器列表中选
导入pytorch时libmkl_intel_lp64.so找不到问题解决

引言安装或者更新完pytorch后,运行不了,显示错误: (base) xu@xusu:~$ python Python 3.7.1 (default, Dec 14 2018, 19:28:38) [GCC 7.3.0] :: Anaconda, Inc. on linux Type "help", "copyright", "credits" or "license" for more information. >
教你两步解决conda安装pytorch时下载速度慢or超时的问题

目录 1.为conda配置清华源 2.创建新的虚拟环境(若已创建,请忽略) 3.激活虚拟环境 4.安装pytorch 1.为conda配置清华源打开cmd输入以下命令: conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/
对pytorch中的梯度更新方法详解

背景使用pytorch时,有一个yolov3的bug,我认为涉及到学习率的调整.收集到tencent yolov3和mxnet开源的yolov3,两个优化器中的学习率设置不一样,而且使用GPU数目和batch的更新也不太一样.据此,我简单的了解了下pytorch的权重梯度的更新策略,看看能否一窥究竟. 对代码说明共三个实验,分布写在代码中的(一)(二)(三)三个地方.运行实验时注释掉其他两个实验及其结果实验(三): 不使用zero_grad()时,grad累加在一起,官网是使用accum
把vgg-face.mat权重迁移到pytorch模型示例

最近使用pytorch时,需要用到一个预训练好的人脸识别模型提取人脸ID特征,想到很多人都在用用vgg-face,但是vgg-face没有pytorch的模型,于是写个vgg-face.mat转到pytorch模型的代码 #!/usr/bin/env python2 # -*- coding: utf-8 -*- """ Created on Thu May 10 10:41:40 2018 @author: hy """ import torc
Pytorch 使用不同版本的cuda的方法步骤

由于课题的原因,笔者主要通过 Pytorch 框架进行深度学习相关的学习和实验.在运行和学习网络上的 Pytorch 应用代码的过程中,不少项目会标注作者在运行和实验时所使用的 Pytorch 和 cuda 版本信息.由于 Pytorch 和 cuda 版本的更新较快,可能出现程序的编译和运行需要之前版本的 Pytorch 和 cuda 进行运行环境支持的情况.比如笔者遇到的某个项目中编写了 CUDAExtension 拓展,而其中使用的 cuda 接口函数在新版本的 cuda 中做了修改,使得
Pytorch中的gather使用方法

官方说明 gather可以对一个Tensor进行聚合,声明为:torch.gather(input, dim, index, out=None) → Tensor 一般来说有三个参数:输入的变量input.指定在某一维上聚合的dim.聚合的使用的索引index,输出为Tensor类型的结果(index必须为LongTensor类型). #参数介绍: input (Tensor) – The source tensor dim (int) – The axis along which to ind
pytorch 预训练模型读取修改相关参数的填坑问题

pytorch 预训练模型读取修改相关参数的填坑修改部分层,仍然调用之前的模型参数. resnet = resnet50(pretrained=False) resnet.load_state_dict(torch.load(args.predir)) res_conv31 = Bottleneck_dilated(1024, 256,dilated_rate = 2) print("---------------------",res_conv31) print("---
pytorch中with torch.no_grad():的用法实例

目录 1.关于with 2.关于withtorch.no_grad(): 附:pytorch使用模型测试使用withtorch.no_grad(): 总结 1.关于with with是python中上下文管理器,简单理解,当要进行固定的进入,返回操作时,可以将对应需要的操作,放在with所需要的语句中.比如文件的写入(需要打开关闭文件)等. 以下为一个文件写入使用with的例子. with open (filename,'w') as sh: sh.write("#!/bin/bash\n&qu
pytorch中的transforms.ToTensor和transforms.Normalize的实现

目录 transforms.ToTensor transforms.Normalize transforms.ToTensor 最近看pytorch时,遇到了对图像数据的归一化,如下图所示: 该怎么理解这串代码呢?我们一句一句的来看,先看transforms.ToTensor(),我们可以先转到官方给的定义,如下图所示: 大概的意思就是说,transforms.ToTensor()可以将PIL和numpy格式的数据从[0,255]范围转换到[0,1] ,具体做法其实就是将原始数据除以255.另外