Pytorch Mac GPU 训练与测评实例

2025-04-01 16:26:49

正文

Pytorch的官方博客发了Apple M1 芯片 GPU加速的文章，这是我期待了很久的功能，因此很兴奋，立马进行测试，结论是在MNIST上，速度与P100差不多，相比CPU提速1.7倍。当然这只是一个最简单的例子，不能反映大部分情况。这里详细记录操作的一步步流程，如果你也感兴趣，不妨自己上手一试。

加速原理

苹果有自己的一套GPU实现API Metal，而Pytorch此次的加速就是基于Metal，具体来说，使用苹果的Metal Performance Shaders（MPS）作为PyTorch的后端，可以实现加速GPU训练。MPS后端扩展了PyTorch框架，提供了在Mac上设置和运行操作的脚本和功能。MPS通过针对每个Metal GPU系列的独特特性进行微调的内核来优化计算性能。新设备在MPS图形框架和MPS提供的调整内核上映射机器学习计算图形和基元。

因此此次新增的的device名字是mps, 使用方式与cuda 类似，例如：

import torch
foo = torch.rand(1, 3, 224, 224).to('mps')
device = torch.device('mps')
foo = foo.to(device)

是不是熟悉的配方，熟悉的味道？可以说是无门槛即可上手。

此外发现，Pytorch已经支持下面这些device了，确实出乎意料:

cpu, cuda, ipu, xpu, mkldnn, opengl, opencl, ideep, hip, ve, ort, mps, xla, lazy, vulkan, meta, hpu

环境配置

为了使用这个实验特性，你需要满足下面三个条件：

有一台配有Apple Silicon 系列芯片（M1, M1 Pro, M1 Pro Max, M1 Ultra)的Mac笔记本
安装了arm64位的Python
安装了最新的nightly 版本的Pytorch

第一个条件需要你自己来设法满足，这篇文章对它的达到没有什么帮助。

假设机器已经准备好。我们可以从这里下载arm64版本的miniconda(文件名是Miniconda3 macOS Apple M1 64-bit bash,基于它安装的Python环境就是arm64位的。下载和安装Minicoda的命令如下：

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-MacOSX-arm64.sh
chmod +x Miniconda3-latest-MacOSX-arm64.sh
./Miniconda3-latest-MacOSX-arm64.sh

按照说明来操作即可，安装完成后，创建一个虚拟环境，通过检查platform.uname()[4] 是不是为arm64 来检查Python的架构:

conda config --env --set always_yes true
conda create -n try-mps python=3.8
conda activate try-mps
python -c "import platform; print(platform.uname()[4])"

如果最后一句命令的输出为arm64 ,说明Python版本OK，可以继续往下走了。

第三步，安装nightly版本的Pytorch，在开启的虚拟环境中进行下面的操作：

python -m pip  install --pre torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/nightly/cpu

执行完成后通过下面的命令检查MPS后端是否可用:

python -c "import torch;print(torch.backends.mps.is_built())"

如果输出为True ，说明MPS后端可用，可以继续往下走了。

跑一个MNIST

基于Pytorch官方的example中的MNIST例子，修改了来测试cpu和mps模式，代码如下:

from __future__ import print_function
import argparse
import time
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
from torch.optim.lr_scheduler import StepLR
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, 3, 1)
        self.conv2 = nn.Conv2d(32, 64, 3, 1)
        self.dropout1 = nn.Dropout(0.25)
        self.dropout2 = nn.Dropout(0.5)
        self.fc1 = nn.Linear(9216, 128)
        self.fc2 = nn.Linear(128, 10)
    def forward(self, x):
        x = self.conv1(x)
        x = F.relu(x)
        x = self.conv2(x)
        x = F.relu(x)
        x = F.max_pool2d(x, 2)
        x = self.dropout1(x)
        x = torch.flatten(x, 1)
        x = self.fc1(x)
        x = F.relu(x)
        x = self.dropout2(x)
        x = self.fc2(x)
        output = F.log_softmax(x, dim=1)
        return output
def train(args, model, device, train_loader, optimizer, epoch):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        output = model(data)
        loss = F.nll_loss(output, target)
        loss.backward()
        optimizer.step()
        if batch_idx % args.log_interval == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))
            if args.dry_run:
                break
def main():
    # Training settings
    parser = argparse.ArgumentParser(description='PyTorch MNIST Example')
    parser.add_argument('--batch-size', type=int, default=64, metavar='N',
                        help='input batch size for training (default: 64)')
    parser.add_argument('--test-batch-size', type=int, default=1000, metavar='N',
                        help='input batch size for testing (default: 1000)')
    parser.add_argument('--epochs', type=int, default=4, metavar='N',
                        help='number of epochs to train (default: 14)')
    parser.add_argument('--lr', type=float, default=1.0, metavar='LR',
                        help='learning rate (default: 1.0)')
    parser.add_argument('--gamma', type=float, default=0.7, metavar='M',
                        help='Learning rate step gamma (default: 0.7)')
    parser.add_argument('--no-cuda', action='store_true', default=False,
                        help='disables CUDA training')
    parser.add_argument('--use_gpu', action='store_true', default=False,
                        help='enable MPS')
    parser.add_argument('--dry-run', action='store_true', default=False,
                        help='quickly check a single pass')
    parser.add_argument('--seed', type=int, default=1, metavar='S',
                        help='random seed (default: 1)')
    parser.add_argument('--log-interval', type=int, default=10, metavar='N',
                        help='how many batches to wait before logging training status')
    parser.add_argument('--save-model', action='store_true', default=False,
                        help='For Saving the current Model')
    args = parser.parse_args()
    use_gpu = args.use_gpu
    torch.manual_seed(args.seed)
    device = torch.device("mps" if args.use_gpu else "cpu")
    train_kwargs = {'batch_size': args.batch_size}
    test_kwargs = {'batch_size': args.test_batch_size}
    if use_gpu:
        cuda_kwargs = {'num_workers': 1,
                       'pin_memory': True,
                       'shuffle': True}
        train_kwargs.update(cuda_kwargs)
        test_kwargs.update(cuda_kwargs)
    transform=transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize((0.1307,), (0.3081,))
        ])
    dataset1 = datasets.MNIST('../data', train=True, download=True,
                       transform=transform)
    dataset2 = datasets.MNIST('../data', train=False,
                       transform=transform)
    train_loader = torch.utils.data.DataLoader(dataset1,**train_kwargs)
    test_loader = torch.utils.data.DataLoader(dataset2, **test_kwargs)
    model = Net().to(device)
    optimizer = optim.Adadelta(model.parameters(), lr=args.lr)
    scheduler = StepLR(optimizer, step_size=1, gamma=args.gamma)
    for epoch in range(1, args.epochs + 1):
        train(args, model, device, train_loader, optimizer, epoch)
        test(model, device, test_loader)
        scheduler.step()
if __name__ == '__main__':
    t0 = time.time()
    main()
    t1 = time.time()
    print('time_cost:', t1 - t0)

测试CPU：

python main.py

测试MPS:

python main --use_gpu

在M1机器上测试发现，训一个Epoch的MNIST，CPU耗时33.4s，而使用MPS的话耗时19.6s，加速1.7倍，好想没官方博客中说的那么多，估计是跟模型太小有关。

我又在Nvidia P100 GPU服务器上进行了测试，CPU耗时34.2s，使用CUDA 耗时20.4s，加速比1.67倍，跟M1差不多，整体速度略低于M1。下面是一个总结表格：

机器	内存	CPU耗时	GPU耗时	加速比
M1	16G	33.4s	19.6s	1.70
P100	256G	34.2s	20.4s	1.67

跑一下VAE模型

类似地，跑一下这个仓库里面地VAE模型，发现CPU模式正常，换成MPS后loss不断增大，最后到nan，看来还是有bug的 (毕竟是实验特性)，可以在Pytorch GitHub 仓库里面提issue，期待更好的Pytorch。

[W ParallelNative.cpp:229] Warning: Cannot set number of intraop threads after parallel work has started or after set_num_threads call when using native parallel backend (function set_num_threads)
Train Epoch: 1 [0/60000 (0%)]   Loss: 550.842529
Train Epoch: 1 [1280/60000 (2%)]        Loss: 330.613251
Train Epoch: 1 [2560/60000 (4%)]        Loss: 4705.016602
Train Epoch: 1 [3840/60000 (6%)]        Loss: 183532752.000000
...
Train Epoch: 6 [40960/60000 (68%)]      Loss: nan
Train Epoch: 6 [42240/60000 (70%)]      Loss: nan

一个愿景

开头提到，关注这个特性挺久了，其实我最初的想法，是希望一台普通计算设备（不带GPU的笔记本，智能手机）都能训非常快的模型。因为GPU卡很昂贵，只有科研机构和大公司才有，普通人购买成本比较高，而云服务商提供的GPU按时收费，价格不菲。另一方面，所有普通笔记本和智能手机都有不错的CPU，算力不错，如果能将这部分性能合理地利用起来，就像深度学习前的时代一样，有一台笔记本就能用MatLab快速地进行科学实验，这样才能将AI推广到更多人，将AI平民化，也避免了大公司在硬件资源上的垄断和显卡巨大的能耗。

今天的Mac GPU训练至少是在降低深度学习能耗和深度学习模型训练的"轻量化"上面有了一个大的进步，你可以抱着笔记本在床上训练改变AI模型了。但以Mac笔记的价格，很难说在平民化方向上有任何的进展。

以上就是Pytorch Mac GPU 训练与测评实例的详细内容，更多关于Pytorch Mac GPU训练测评的资料请关注我们其它相关文章！

PyTorch使用GPU训练的两种方法实例

目录 Pytorch 使用GPU训练方法一 .cuda() 方法二 .to(device) 附:一些和GPU有关的基本操作汇总总结 Pytorch 使用GPU训练使用 GPU 训练只需要在原来的代码中修改几处就可以了. 我们有两种方式实现代码在 GPU 上进行训练方法一 .cuda() 我们可以通过对网络模型,数据,损失函数这三种变量调用 .cuda() 来在GPU上进行训练 # 将网络模型在gpu上训练 model = Model() model = model.cuda() # 损失
M1 mac安装PyTorch的实现步骤

目录第一步 -安装和配置Miniforge 第二步-创建虚拟环境第三步 -安装PyTorch 第四步 -测试最后总结 M1 macbook已经不是什么新产品了.TensorFlow官方已经给出了安装指南和效率评测. 本文将介绍如何在M1机器上本地安装和运行PyTorch.你使用的M1机型(Air.Pro.Mini或iMac)没有区别. 第一步 -安装和配置Miniforge 我花了很多时间为数据科学需求配置我的M1 Mac.但是都不能完美的解决我的问题.直到我找到了这个.根据网速的不同,完
mac安装pytorch及系统的numpy更新方法

安装Pytorch 在pytorch官网上选择相应选项,我的是OS X, pip, python2.7, none CUDA. (之所以用python2.7只是觉得现在还有好多代码用2.7写的,用3+版本经常会由于语法更新而报错.而且用3+的话sublime还要配下python3 的building system......) 打开terminal,输入: sudo pip install http://download.pytorch.org/whl/torch-0.3.0.post4-cp2
pytorch模型的保存加载与续训练详解

目录前面模型保存与加载方式1 方式2 方式3 总结前面最近,看到不少小伙伴问pytorch如何保存和加载模型,其实这部分pytorch官网介绍的也是很清楚的,感兴趣的点击了解详情
Pytorch深度学习经典卷积神经网络resnet模块训练

目录前言一.resnet 二.resnet网络结构三.resnet18 1.导包 2.残差模块 2.通道数翻倍残差模块 3.rensnet18模块 4.数据测试 5.损失函数,优化器 6.加载数据集,数据增强 7.训练数据 8.保存模型 9.加载测试集数据,进行模型测试四.resnet深层对比前言随着深度学习的不断发展,从开山之作Alexnet到VGG,网络结构不断优化,但是在VGG网络研究过程中,人们发现随着网络深度的不断提高,准确率却没有得到提高,如图所示: 人们觉得深度学习到此
Pytorch 使用Google Colab训练神经网络深度学习

目录学习前言什么是Google Colab 相关链接利用Colab进行训练一.数据集与预训练权重的上传 1.数据集的上传 2.预训练权重的上传二.打开Colab并配置环境 1.笔记本的创建 2.环境的简单配置 3.深度学习库的下载 4.数据集的复制与解压 5.保存路径设置三.开始训练 1.标注文件的处理 2.训练文件的处理 3.开始训练断线怎么办? 1.防掉线措施 2.完了还是掉线呀? 总结学习前言 Colab是谷歌提供的一个云学习平台,Very Nice,最近卡不够用了决定去白
Pytorch Mac GPU 训练与测评实例

目录正文加速原理环境配置跑一个MNIST 跑一下VAE模型一个愿景正文 Pytorch的官方博客发了Apple M1 芯片 GPU加速的文章,这是我期待了很久的功能,因此很兴奋,立马进行测试,结论是在MNIST上,速度与P100差不多,相比CPU提速1.7倍.当然这只是一个最简单的例子,不能反映大部分情况.这里详细记录操作的一步步流程,如果你也感兴趣,不妨自己上手一试. 加速原理苹果有自己的一套GPU实现API Metal,而Pytorch此次的加速就是基于Metal,具体来说,使
关于pytorch多GPU训练实例与性能对比分析

以下实验是我在百度公司实习的时候做的,记录下来留个小经验. 多GPU训练 cifar10_97.23 使用 run.sh 文件开始训练 cifar10_97.50 使用 run.4GPU.sh 开始训练在集群中改变GPU调用个数修改 run.sh 文件 nohup srun --job-name=cf23 $pt --gres=gpu:2 -n1 bash cluster_run.sh $cmd 2>&1 1>>log.cf50_2GPU & 修改 –gres=gpu:
pytorch 指定gpu训练与多gpu并行训练示例

一. 指定一个gpu训练的两种方法: 1.代码中指定 import torch torch.cuda.set_device(id) 2.终端中指定 CUDA_VISIBLE_DEVICES=1 python 你的程序其中id就是你的gpu编号二. 多gpu并行训练: torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0) 该函数实现了在module级别上的数据并行使用,注意batch size要大于G
解决pytorch多GPU训练保存的模型,在单GPU环境下加载出错问题

背景在公司用多卡训练模型,得到权值文件后保存,然后回到实验室,没有多卡的环境,用单卡训练,加载模型时出错,因为单卡机器上,没有使用DataParallel来加载模型,所以会出现加载错误. 原因 DataParallel包装的模型在保存时,权值参数前面会带有module字符,然而自己在单卡环境下,没有用DataParallel包装的模型权值参数不带module.本质上保存的权值文件是一个有序字典. 解决方法 1.在单卡环境下,用DataParallel包装模型. 2.自己重写Load函数,灵活.
pytorch使用指定GPU训练的实例

本文适合多GPU的机器,并且每个用户需要单独使用GPU训练. 虽然pytorch提供了指定gpu的几种方式,但是使用不当的话会遇到out of memory的问题,主要是因为pytorch会在第0块gpu上初始化,并且会占用一定空间的显存.这种情况下,经常会出现指定的gpu明明是空闲的,但是因为第0块gpu被占满而无法运行,一直报out of memory错误. 解决方案如下: 指定环境变量,屏蔽第0块gpu CUDA_VISIBLE_DEVICES = 1 main.py 这句话表示只有第1块
pytorch 修改预训练model实例

我就废话不多说了,直接上代码吧! class Net(nn.Module): def __init__(self , model): super(Net, self).__init__() #取掉model的后两层 self.resnet_layer = nn.Sequential(*list(model.children())[:-2]) self.transion_layer = nn.ConvTranspose2d(2048, 2048, kernel_size=14, stride=3)
pytorch使用horovod多gpu训练的实现

pytorch在Horovod上训练步骤分为以下几步: import torch import horovod.torch as hvd # Initialize Horovod 初始化horovod hvd.init() # Pin GPU to be used to process local rank (one GPU per process) 分配到每个gpu上 torch.cuda.set_device(hvd.local_rank()) # Define dataset... 定义d
详解pytorch的多GPU训练的两种方式

目录方法一:torch.nn.DataParallel 1. 原理 2. 常用的配套代码如下 3. 优缺点方法二:torch.distributed 1. 代码说明方法一:torch.nn.DataParallel 1. 原理如下图所示:小朋友一个人做4份作业,假设1份需要60min,共需要240min. 这里的作业就是pytorch中要处理的data. 与此同时,他也可以先花3min把作业分配给3个同伙,大家一起60min做完.最后他再花3min把作业收起来,一共需要66min. 这个
在Pytorch中使用Mask R-CNN进行实例分割操作

在这篇文章中,我们将讨论mask R-CNN背后的一些理论,以及如何在PyTorch中使用预训练的mask R-CNN模型. 1.语义分割.目标检测和实例分割之前已经介绍过: 1.语义分割:在语义分割中,我们分配一个类标签(例如.狗.猫.人.背景等)对图像中的每个像素. 2.目标检测:在目标检测中,我们将类标签分配给包含对象的包围框. 一个非常自然的想法是把两者结合起来.我们只想在一个对象周围识别一个包围框,并且找到包围框中的哪些像素属于对象. 换句话说,我们想要一个掩码,它指示(使用颜色或灰