解决pytorch 模型复制的一些问题

2025-06-02 22:43:55

直接使用

model2=model1

会出现当更新model2时，model1的权重也会更新，这和自己的初始目的不同。

经评论指出可以使用：

model2=copy.deepcopy(model1)

来实现深拷贝，手上没有pytorch环境，具体还没测试过，谁测试过可以和我说下有没有用。

原方法：

所有要使用模型复制可以使用如下方法。

torch.save(model, "net_params.pkl")
model5=Cnn(3,10)
model5=torch.load('net_params.pkl')

这样编写不会影响原始模型的权重

补充：pytorch模型训练流程中遇到的一些坑(持续更新)

要训练一个模型，主要分成几个部分，如下。

数据预处理

入门的话肯定是拿 MNIST 手写数据集先练习。

pytorch 中有帮助我们制作数据生成器的模块，其中有 Dataset、TensorDataset、DataLoader 等类可以来创建数据入口。

之前在 tensorflow 中可以用 dataset.from_generator() 的形式，pytorch 中也类似，目前我了解到的有两种方法可以实现。

第一种就继承 pytorch 定义的 dataset，改写其中的方法即可。如下，就获得了一个 DataLoader 生成器。

class MyDataset(Dataset):
 def __init__(self, data, labels):
 self.data = data
 self.labels = labels
 def __getitem__(self, index):
 return self.data[index], self.labels[index]
 def __len__(self):
 return len(self.labels)

train_dataset = MyDataset(train_data, train_label)
train_loader = DataLoader(dataset = train_dataset,
 batch_size = 1,
 shuffle = True)

第二种就是转换，先把我们准备好的数据转化成 pytorch 的变量(或者是 Tensor)，然后传入 TensorDataset，再构造 DataLoader。

X = torch.from_numpy(train_data).float()
Y = torch.from_numpy(train_label).float()
train_dataset = TensorDataset(X, Y)

train_loader = DataLoader(dataset = train_dataset,
 batch_size = 1,
 shuffle = True)
 #num_workers = 2)

模型定义

class Net(nn.Module):

 def __init__(self):
 super(Net, self).__init__()
 self.conv1 = nn.Conv2d(1, 6, 3)
 self.conv2 = nn.Conv2d(6 ,16, 3)

 self.fc1 = nn.Linear(400, 120)
 self.fc2 = nn.Linear(120, 84)
 self.fc3 = nn.Linear(84, 10)

 def forward(self, x):
 relu = F.relu(self.conv1(x))
 x = F.max_pool2d(relu, (2, 2))
 x = F.max_pool2d(F.relu(self.conv2(x)), 2)
 x = x.view(-1, self.num_flat_features(x))
 x = F.relu(self.fc1(x))
 x = F.relu(self.fc2(x))
 x = self.fc3(x)

 return x
 def num_flat_features(self, x):
 size = x.size()[1:] #除了batch_size之外的维度
 num_features = 1
 for s in size:
 num_features *= s
 return num_features

训练模型那么肯定要先定义一个网络结构，如上定义一个前向传播网络。里面包含了卷积层、全连接层、最大池化层和 relu 非线性激活层(名字我自己取的)以及一个 view 展开，把一个多维的特征图平展成一维的。

其中nn.Conv2d(in_channels, out_channels, kernel_size)，第一个参数是输入的深度，第二是输出的深度，第三是卷积核的尺寸。

F.max_pool2d(input, (pool_size, pool_size))，第二个参数是池话

nn.Linear(in_features, out_features)

x.view是平展的操作，不过实际上相当于 numpy 的 reshape，需要计算转换后的尺寸。

损失函数定义

import torch.optim as optim

criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

模型定义完之后，意味着给出输入，就可以得到输出的结果。那么就来比较 outputs 和 targets 之间的区别，那么就需要用到损失函数来描述。

训练网络

for epoch in range(2): # loop over the dataset multiple times

 running_loss = 0.0
 for i, data in enumerate(trainloader, 0):
 # get the inputs; data is a list of [inputs, labels]
 inputs, labels = data

 # zero the parameter gradients
 optimizer.zero_grad()

 # forward + backward + optimize
 outputs = net(inputs)
 loss = criterion(outputs, labels)
 loss.backward()
 optimizer.step()

 # print statistics
 running_loss += loss.item()
 if i % 2000 == 1999: # print every 2000 mini-batches
  print('[%d, %5d] loss: %.3f' %
   (epoch + 1, i + 1, running_loss / 2000))
  running_loss = 0.0

print('Finished Training')

以上的代码是官方教程中给出来的，我们要做的就是学习他的思路。

1.首先是 epoch 的数量为 2，每个 epoch 都会历遍一次整个训练集。在每个 epoch 内累积统计 running_loss，每 2000 个 batch 数据计算一次损失的平均值，然后 print 再重新将 running_loss 置为 0。

2.然后分 mini-batch 进行训练，在每个计算每个 mini-batch 的损失之前，都会将优化器 optimizer 中的梯度清空，防止不同 mini-batch 的梯度被累加到一起。更新分成两步：第一步计算损失函数，然后把总的损失分配到各个层中，即 loss.backward()，然后就使用优化器更新权重，即 optimizer.step()。

保存模型

PATH = '...'
torch.save(net.state_dict(), PATH)

爬坑总结

总的来说流程就是上面那几步，但自己做的时候就遇到了挺多问题，最主要是对于其中张量传播过程中的要求不清楚，导致出了不少错误。

首先是输入的数据，pytorch 默认图片的 batch 数据的结构是（BATCH_SIZE, CHANNELS, IMG_H, IMG_W），所以要在生成数据时做一些调整，满足这种 BCHW 的规则。

会经常出现一些某个矩阵或者张量要求的数据，例如 “RuntimeError: Expected object of scalar type Double but got scalar type Float for argument #2 ‘mat2'” 等错误信息。

可以使用 x.double()，y.float()，z.long() 等方式转换成他要求的格式。

RuntimeError: multi-target not supported。这个错误出现在损失函数那个地方，对于分类问题肯定是优先考虑交叉熵。

criterion = nn.CrossEntropyLoss()
loss = criterion(outputs, labels.long())#报错的地方

当我batch-size=1时这个地方不会报错，但是当batch-size>1时就会报错。

查了别人的代码，大家基本都是和官方教程里面写的一样，使用官方的 mnist 数据接口，代码如下。一开始我是不愿意的，因为那样子意味着可能数据格式被封装起来看不见，但是自己折腾成本比较高，所以还是试了，真香！

train_dataset = datasets.MNIST(root='./data/',
    train=True,
    transform=transforms.ToTensor(),
    download=True)
train_loader = DataLoader(dataset = train_dataset,
  batch_size = 4,
  shuffle = True)

打印了一下从生成器中获得数据，看一下 size，发现果然和我自己写的不同。当 batch_size=4 时，数据 data.size() 都是4*1*28*28，这个是相同的；但是 labels.size() 是不同的，我写的是 one_hot 向量所以是 4*10，但它的是 4。

直接打印 labels 看看，果然，是单个指，例如 tensor([3, 2, 6, 2]) 这样。

不过模型的 outputs 依然是 4*10，看来是 nn.CrossEntropyLoss() 这个函数自己会做计算，所以他才会报错说 multi-target not supported，因为 lables.size() 不对，原本只有一个数字，但现在是10个数字，相当于被分配了10个属性，自然就报错啦。

所以稍微修改了自己写的生成器之后，就没问题了。

不过，如果想要更自由的调用数据，还是需要对对象进行一些方法的重载，使用 pytoch 定义的 DataLoader，用 enumerate，就会把所有的数据历遍一次，如果使用 iter() 得到一个可迭代对象之后 next()，并不可以像 tensorflow 那样子生成训练数据。

例如说，如果使用如上的形式，DataLoader 得到的是一个生成器，python 中的生成器对象主要有 __next__ 和 __iter__ 等魔术方法决定。

__iter__ 方法使得实例可以如下调用，可以得到一个可迭代对象，iterable，但是如果不加也没关系，因为更重要的是 __next__ 类方法。

如下自己写了 __next__ 方法之后就可以看到，原本会出现越界的现象不见了，可以循环的历遍数据，当然也可以想被注释的那部分一样，抛出 StopIteration 来终止。

a = A()
a_iter = iter(a)
class A():
 def __init__(self):
 self.list = [1,2,3]
 self.index = 0
 #def __getitem__(self, index):
 # return self.list[i]
 #def __iter__(self):
 # return self
 def __next__(self):
 #for i in range():
 if self.index >= len(self.list):
 #raise StopIteration
 self.index = self.index%len(self.list)
 result = self.list[self.index]
 self.index += 1
 return result
b = A()
for i in range(20):
 print(next(b))

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

解决pytorch 的state_dict()拷贝问题

先说结论 model.state_dict()是浅拷贝,返回的参数仍然会随着网络的训练而变化. 应该使用deepcopy(model.state_dict()),或将参数及时序列化到硬盘. 再讲故事,前几天在做一个模型的交叉验证训练时,通过model.state_dict()保存了每一组交叉验证模型的参数,后根据效果选择准确率最佳的模型load回去,结果每一次都是最后一个模型,从地址来看,每一个保存的state_dict()都具有不同的地址,但进一步发现state_dict()下的各个模型参数的
pytorch 状态字典:state_dict使用详解

pytorch 中的 state_dict 是一个简单的python的字典对象,将每一层与它的对应参数建立映射关系.(如model的每一层的weights及偏置等等) (注意,只有那些参数可以训练的layer才会被保存到模型的state_dict中,如卷积层,线性层等等) 优化器对象Optimizer也有一个state_dict,它包含了优化器的状态以及被使用的超参数(如lr, momentum,weight_decay等) 备注: 1) state_dict是在定义了model或optimiz
解决pytorch 保存模型遇到的问题

今天用pytorch保存模型时遇到bug Can't pickle <class 'torch._C._VariableFunctions'> 在google上查找原因,发现是保存时保存了整个模型的原因,而模型中有一些自定义的参数将 torch.save(model,save_path) 改为 torch.save(model.state_dict(),save_path) 然后载入模型也做相应的更改就好了补充:pytorch训练模型的一些坑 1. 图像读取 opencv的python和c
解决pytorch 模型复制的一些问题

直接使用 model2=model1 会出现当更新model2时,model1的权重也会更新,这和自己的初始目的不同. 经评论指出可以使用: model2=copy.deepcopy(model1) 来实现深拷贝,手上没有pytorch环境,具体还没测试过,谁测试过可以和我说下有没有用. 原方法: 所有要使用模型复制可以使用如下方法. torch.save(model, "net_params.pkl") model5=Cnn(3,10) model5=torch.load('net_
解决Pytorch 加载训练好的模型遇到的error问题

这是一个非常愚蠢的错误 debug的时候要好好看error信息提醒自己切记好好对待error!切记!切记! -----------------------分割线---------------- pytorch 已经非常友好了保存模型和加载模型都只需要一条简单的命令 #保存整个网络和参数 torch.save(your_net, 'save_name.pkl') #加载保存的模型 net = torch.load('save_name.pkl') 因为我比较懒我就想直接把整个网络都保存下来,然
解决pytorch多GPU训练保存的模型,在单GPU环境下加载出错问题

背景在公司用多卡训练模型,得到权值文件后保存,然后回到实验室,没有多卡的环境,用单卡训练,加载模型时出错,因为单卡机器上,没有使用DataParallel来加载模型,所以会出现加载错误. 原因 DataParallel包装的模型在保存时,权值参数前面会带有module字符,然而自己在单卡环境下,没有用DataParallel包装的模型权值参数不带module.本质上保存的权值文件是一个有序字典. 解决方法 1.在单卡环境下,用DataParallel包装模型. 2.自己重写Load函数,灵活.
Pytorch模型微调fine-tune详解

目录 2.1.为什么要微调 2.2.需要微调的情况 2.4.参数冻结---指定训练模型的部分层 2.5.参数冻结的方式 2.5.1.冻结方式1 2.5.2.冻结方式2 2.5.2.冻结方式3 2.6.修改模型参数 2.7.修改模型结构随着深度学习的发展,在大模型的训练上都是在一些较大数据集上进行训练的,比如Imagenet-1k,Imagenet-11k,甚至是ImageNet-21k等.但我们在实际应用中,我们自己的数据集可能比较小,只有几千张照片,这时从头训练具有几千万参数的大型神经网络是
将Pytorch模型从CPU转换成GPU的实现方法

最近将Pytorch程序迁移到GPU上去的一些工作和思考环境:Ubuntu 16.04.3 Python版本:3.5.2 Pytorch版本:0.4.0 0. 序言大家知道,在深度学习中使用GPU来对模型进行训练是可以通过并行化其计算来提高运行效率,这里就不多谈了. 最近申请到了实验室的服务器来跑程序,成功将我简陋的程序改成了"高大上"GPU版本. 看到网上总体来说少了很多介绍,这里决定将我的一些思考和工作记录下来. 1. 如何进行迁移由于我使用的是Pytorch写的模型,网上给
解决Pytorch 训练与测试时爆显存(out of memory)的问题

Pytorch 训练时有时候会因为加载的东西过多而爆显存,有些时候这种情况还可以使用cuda的清理技术进行修整,当然如果模型实在太大,那也没办法. 使用torch.cuda.empty_cache()删除一些不需要的变量代码示例如下: try: output = model(input) except RuntimeError as exception: if "out of memory" in str(exception): print("WARNING: out of
浅谈pytorch 模型 .pt, .pth, .pkl的区别及模型保存方式

我们经常会看到后缀名为.pt, .pth, .pkl的pytorch模型文件,这几种模型文件在格式上有什么区别吗? 其实它们并不是在格式上有区别,只是后缀不同而已(仅此而已),在用torch.save()函数保存模型文件时,各人有不同的喜好,有些人喜欢用.pt后缀,有些人喜欢用.pth或.pkl.用相同的torch.save()语句保存出来的模型文件没有什么不同. 在pytorch官方的文档/代码里,有用.pt的,也有用.pth的.一般惯例是使用.pth,但是官方文档里貌似.pt更多,而且官方也
pytorch模型的保存和加载、checkpoint操作

其实之前笔者写代码的时候用到模型的保存和加载,需要用的时候就去度娘搜一下大致代码,现在有时间就来整理下整个pytorch模型的保存和加载,开始学习把~ pytorch的模型和参数是分开的,可以分别保存或加载模型和参数.所以pytorch的保存和加载对应存在两种方式: 1. 直接保存加载模型 (1)保存和加载整个模型 # 保存模型 torch.save(model, 'model.pth\pkl\pt') #一般形式torch.save(net, PATH) # 加载模型 model = torc
Python机器学习pytorch模型选择及欠拟合和过拟合详解

目录训练误差和泛化误差模型复杂性模型选择验证集 K折交叉验证欠拟合还是过拟合? 模型复杂性数据集大小训练误差和泛化误差训练误差是指,我们的模型在训练数据集上计算得到的误差. 泛化误差是指,我们将模型应用在同样从原始样本的分布中抽取的无限多的数据样本时,我们模型误差的期望. 在实际中,我们只能通过将模型应用于一个独立的测试集来估计泛化误差,该测试集由随机选取的.未曾在训练集中出现的数据样本构成. 模型复杂性在本节中将重点介绍几个倾向于影响模型泛化的因素: 可调整参数的数量.当可调
加速 PyTorch 模型训练的 9 个技巧(收藏)

目录 Pytorch-Lightning 1.DataLoaders 2.DataLoaders中的workers的数量 3.Batchsize 4.梯度累加 5.保留的计算图 6.单个GPU训练 7.16-bit精度 8.移动到多个GPUs中 9.多节点GPU训练 10.福利!在单个节点上多GPU更快的训练对模型加速的思考让我们面对现实吧,你的模型可能还停留在石器时代.我敢打赌你仍然使用32位精度或GASP甚至只在一个GPU上训练. 我明白,网上都是各种神经网络加速指南,但是一个check