Python Pytorch深度学习之图像分类器

2025-06-28 13:24:36

一、简介

通常，当处理图像、文本、语音或视频数据时，可以使用标准Python将数据加载到numpy数组格式，然后将这个数组转换成torch.*Tensor

对于图像，可以用Pillow，OpenCV
对于语音，可以用scipy，librosa
对于文本，可以直接用Python或Cython基础数据加载模块，或者用NLTK和SpaCy

特别是对于视觉，Pytorch已经创建了一个叫torchvision的package，该报包含了支持加载类似Imagenet，CIFAR10，MNIST等公共数据集的数据加载模快torchvision.datasets和支持加载图像数据数据转换模块torch.utils.data.DataLoader。这提供了极大地便利，并避免了编写“样板代码”

二、数据集

对于本小节，使用CIFAR10数据集，它包含了是个类别：airplane，automobile，bird，cat，deer，dog，frog，horse，ship，truck。CIFAR10中的图像尺寸是33232，也就是RGB的3层颜色通道，每层通道内的尺寸为32*32

三、训练一个图像分类器

训练图像分类器的步骤：

使用torchvision加载并且归一化CIFAR10的训练和测试数据集
定义一个卷积神经网络
定义一个损失函数
在训练样本数据上训练网络
在测试样本数据上测试网络

1、导入package吧

# 使用torchvision，加载并归一化CIFAR10
import torch
import torchvision
import torchvision.transforms as transforms

2、归一化处理+贴标签吧

# torchvision数据集的输出是范围在[0,1]之间的PILImage,将他们转换成归一化范围为[-1,1]之间的张量Tensor
transform=transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize((0.5,0.5,0.5),(0.5,0.5,0.5))]
    )
# 训练集
trainset=torchvision.datasets.CIFAR10(root='./data',train=True,download=False,transform=transform)
trainloader=torch.utils.data.DataLoader(trainset,batch_size=4,shuffle=True,num_workers=2)
# 测试集
testset=torchvision.datasets.CIFAR10(root='./data',train=False,download=False,transform=transform)
testloader=torch.utils.data.DataLoader(testset,batch_size=4,shuffle=False,num_workers=2)
classes=("plane","car","bird","cat","deer","dog","frog","horse","ship","truck")

3、先来康康训练集中的照片吧

# 展示其中的训练照片
import matplotlib.pyplot as plt
import numpy as np
# 定义图片显示的function
def imshow(img):
    img=img/2+0.5
    npimg=img.numpy()
    plt.imshow(np.transpose(npimg,(1,2,0)))
    plt.show()
# 得到随机训练图像
dataiter=iter(trainloader)
images,labels=dataiter.next()
# 展示图片
imshow(torchvision.utils.make_grid(images))
#打印标签labels
print(' '.join("%5s"%classes[labels[j]] for j in range(4)))

运行结果

注：初学的猿仔们如果Spyder不显示图片，自己设置一下就OK，在Tools——>Preferences中设置如下：

4、定义一个神经网络吧

此处，复制前一节的神经网络（在这里），并修改为3通道的图片（之前定义的是1通道）

#%%
# 定义卷积神经网络
import torch.nn as nn
import torch.nn.functional as F
class Net(nn.Module):
    def __init__(self):
        super(Net,self).__init__()
        # 1个输入，6个输出，5*5的卷积
        # 内核
        self.conv1=nn.Conv2d(3,6,5)#定义三个通道
        self.pool=nn.MaxPool2d(2,2)
        self.conv2=nn.Conv2d(6,16,5)
        # 映射函数：线性——y=Wx+b
        self.fc1=nn.Linear(16*5*5,120)#输入特征值：16*5*5，输出特征值：120
        self.fc2=nn.Linear(120,84)
        self.fc3=nn.Linear(84,10)
    def forward(self,x):
        x=self.pool(F.relu(self.conv1(x)))
        x=self.pool(F.relu(self.conv2(x)))
        x=x.view(-1,16*5*5)
        x=F.relu(self.fc1(x))
        x=F.relu(self.fc2(x))
        x=self.fc3(x)
        return x
net=Net()

Tips:在Spyder中可用使用“#%%”得到cell块，之后对每个cell进行运行，快捷键（Ctrl+Enter）——>我太爱用快捷键了，无论是什么能用键盘坚决不用鼠标（是真的懒吧！！！）

5、定义一个损失函数和优化器吧

使用分类交叉熵Cross-Entropy做损失函数，动量SGD做优化器

#%%
# 定义一个损失函数和优化器
import torch.optim as optim
criterion=nn.CrossEntropyLoss()
optimizer=optim.SGD(net.parameters(), lr=0.001,momentum=0.9)

6、训练网络吧

此处只需要在数据迭代器上循环输入网络和优化器

#%%训练网络
for epoch in range(2):
    running_loss=0.0
    for i,data in enumerate(trainloader,0):
        #得到输入
        inputs,labels=data
        # 将参数的梯度值置零
        optimizer.zero_grad()
        #反向传播+优化
        outputs=net(inputs)
        loss=criterion(outputs,labels)
        loss.backward()
        optimizer.step()
        #打印数据
        running_loss+=loss.item()
        if i% 2000==1999:
            print('[%d,%5d] loss: %.3f'%(epoch+1,i+1,running_loss/2000))#每2000个输出一次
print('Finished Training')

运行结果

7、在测试集上测试一下网络吧

已经通过训练数据集对网络进行了两次训练，但是我们需要检查是否已经学到了东西。将使用神经网络的输出作为预测的类标来检查网络的预测性能，用样本的真实类标校对，如过预测正确，将样本添加到正确预测的列表中

#%%
#在测试集上显示
outputs=net(images)
# 输出是预测与十个类的相似程度，与某一个类的近似程度越高，网络就越认为图像是属于这一类别
# 打印其中最相似类别类标
_, predictd=torch.max(outputs,1)
print('Predicted:',' '.join('%5s'% classes[predictd[j]]
                            for j in range(4)))

运行结果

把网络放在整个数据集上看看具体表现

#%% 结果看起来还好55%，看看网络在整个数据集的表现
correct=0
total=0
with torch.no_grad():
    for data in testloader:
        images,labels=data
        outputs=net(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted==labels).sum().item()
print('Accuracy of the network on the 10000 test images:%d %%' % (
    100*correct/total))

运行结果

8、分别查看一下训练效果吧

#%%分类查看
class_correct=list(0. for i in range(10))
class_total=list(0. for i in range(10))
with torch.no_grad():
    for data in testloader:
        images,labels=data
        outputs=net(images)
        _, predictd=torch.max(outputs,1)
        c=(predictd==labels).squeeze()
        for i in range(4):
            label=labels[i]
            class_correct[label]+=c[i].item()
            class_total[label]+=1

for i in range(10):
    print('Accuracy of %5s:%2d %%'% (classes[i],100*class_correct[i]/class_total[i]))

运行结果

总结

本篇文章就到这里了，希望能够给你带来帮助，也希望您能够多多关注我们的更多内容！

Python Pytorch深度学习之核心小结

目录一.Numpy实现网络二.Pytorch:Tensor 三.自动求导 1.PyTorch:Tensor和auto_grad 总结 Pytorch的核心是两个主要特征: 1.一个n维tensor,类似于numpy,但是tensor可以在GPU上运行 2.搭建和训练神经网络时的自动微分/求导机制一.Numpy实现网络在总结Tensor之前,先使用numpy实现网络.numpy提供了一个n维数组对象,以及许多用于操作这些数组的函数. import numpy as np # n是批量大小,
Python Pytorch深度学习之Tensors张量

目录一.Tensor(张量) 二.操作总结环境:Anaconda自带的编译器--Spyder 最近才开使用conda,发现conda 就是 yyds,爱啦~ 一.Tensor(张量) import torch #构造一个5*3的空矩阵 x=torch.FloatTensor(5,3) print(x) # 构造随机初始化矩阵 x=torch.rand(5,3) print(x) # 构造一个矩阵全为0,而且数据类型为long x=torch.zeros(5,3,dtype=torch.lo
Python Pytorch深度学习之数据加载和处理

目录一.下载安装包二.下载数据集三.读取数据集四.编写一个函数看看图像和landmark 五.数据集类六.数据可视化七.数据变换 1.Function_Rescale 2.Function_RandomCrop 3.Function_ToTensor 八.组合转换九.迭代数据集总结一.下载安装包 packages: scikit-image:用于图像测IO和变换 pandas:方便进行csv解析二.下载数据集数据集说明:该数据集(我在这)是imagenet数据集标注为fac
Python Pytorch深度学习之自动微分

目录一.简介二.TENSOR 三.梯度四.Example--雅克比向量积总结一.简介 antograd包是Pytorch中所有神经网络的核心.autograd为Tensor上的所有操作提供自动微分,它是一个由运行定义的框架,这意味着以代码运行方式定义后向传播,并且每一次迭代都可能不同二.TENSOR torch.Tensor是包的核心. 1.如果将属性.requires_grad设置为True,则会开始跟踪针对tensor的所有操作. 2.完成计算之后,可以调用backward()来
Python Pytorch深度学习之神经网络

目录一.简介二.神经网络训练过程 2.通过调用net.parameters()返回模型可训练的参数 3.迭代整个输入 4.调用反向传播 5.计算损失值 6.反向传播梯度 7.更新神经网络参数总结一.简介神经网络可以通过torch.nn包构建,上一节已经对自动梯度有些了解,神经网络是基于自动梯度来定义一些模型.一个nn.Module包括层和一个方法,它会返回输出.例如:数字图片识别的网络: 上图是一个简单的前回馈神经网络,它接收输入,让输入一个接着一个通过一些层,最后给出输出. 二.神经
Python Pytorch深度学习之图像分类器

目录一.简介二.数据集三.训练一个图像分类器 1.导入package吧 2.归一化处理+贴标签吧 3.先来康康训练集中的照片吧 4.定义一个神经网络吧 5.定义一个损失函数和优化器吧 6.训练网络吧 7.在测试集上测试一下网络吧 8.分别查看一下训练效果吧总结一.简介通常,当处理图像.文本.语音或视频数据时,可以使用标准Python将数据加载到numpy数组格式,然后将这个数组转换成torch.*Tensor 对于图像,可以用Pillow,OpenCV 对于语音,可以用scipy,l
Python深度学习之图像标签标注软件labelme详解

前言 labelme是一个非常好用的免费的标注软件,博主看了很多其他的博客,有的直接是翻译稿,有的不全面.对于新手入门还是有点困难.因此,本文的主要是详细介绍labelme该如何使用. 一.labelme是什么? labelme是图形图像注释工具,它是用Python编写的,并将Qt用于其图形界面.说直白点,它是有界面的, 像软件一样,可以交互,但是它又是由命令行启动的,比软件的使用稍微麻烦点.其界面如下图: 它的功能很多,包括: 对图像进行多边形,矩形,圆形,多段线,线段,点形式的标注(可用于目
pyTorch深度学习softmax实现解析

目录用PyTorch实现linear模型模拟数据集定义模型加载数据集 optimizer 模型训练 softmax回归模型 Fashion-MNIST cross_entropy 模型的实现利用PyTorch简易实现softmax 用PyTorch实现linear模型模拟数据集 num_inputs = 2 #feature number num_examples = 1000 #训练样本个数 true_w = torch.tensor([[2],[-3.4]]) #真实的权重值 t
pyTorch深度学习多层感知机的实现

目录激活函数多层感知机的PyTorch实现激活函数前两节实现的传送门 pyTorch深度学习softmax实现解析 pyTorch深入学习梯度和Linear Regression实现析前两节实现的linear model 和 softmax model 是单层神经网络,只包含一个输入层和一个输出层,因为输入层不对数据进行transformation,所以只算一层输出层. 多层感知机(mutilayer preceptron)加入了隐藏层,将神经网络的层级加深,因为线性层的串联结果还是线
PyTorch深度学习模型的保存和加载流程详解

一.模型参数的保存和加载 torch.save(module.state_dict(), path):使用module.state_dict()函数获取各层已经训练好的参数和缓冲区,然后将参数和缓冲区保存到path所指定的文件存放路径(常用文件格式为.pt..pth或.pkl). torch.nn.Module.load_state_dict(state_dict):从state_dict中加载参数和缓冲区到Module及其子类中 . torch.nn.Module.state_dict()函数