详解使用CUDA+OpenCV加速yolo v4性能

YOLO是You-Only-Look-Once的缩写,它无疑是根据COCO数据集训练的最好的对象检测器之一。YOLOv4是最新的迭代版本,它在准确性和性能之间进行了权衡,使其成为最先进的对象检测器之一。在智能视频分析管道中使用任何对象检测器的典型机制包括使用像Tensorflow或PyTorch这样能够在NVIDIA GPU上操作的库来加速模型推理。

OpenCV用于图像/视频流输入,预处理和后处理的视觉效果。如果我告诉你OpenCV现在能够利用NVIDIA CUDA的优点,使用DNN模块本地运行YOLOv4,那会怎样?本文将带你通过使用CUDA和cuDNN构建OpenCV,以使用DNN模块加速YOLOv4推理。

介绍

我认识的大多数爱好者都有支持GPU的设备。我的目标是让GPU加速成为主流。谁不喜欢项目跑快点呢?我已经使用了OpenCV 4.5.1、CUDA 11.2和cuDNN 8.1.0来开始工作,使推理更容易!

首先,你需要设置CUDA,然后安装cuDNN,最后以构建OpenCV结束。此外,这个博客被分成了几个部分,这样更容易理解!

CUDA 11.2和cuDNN 8.1.0安装

最有可能使你的计算机无法启动的部分。开个玩笑啦!把每件事都做好,这应该是轻而易举的事。

安装CUDA 11.2

首先根据你的平台从CUDA存储库下载deb文件。

CUDA存储库:https://developer.nvidia.com/cuda-downloads

正确选择平台后,将会向你提供安装命令。如果你的平台与我的平台相似,则可以按以下方式安装它:

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pinsudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600wget https://developer.download.nvidia.com/compute/cuda/11.2.1/local_installers/cuda-repo-ubuntu2004-11-2-local_11.2.1-460.32.03-1_amd64.debsudo dpkg -i cuda-repo-ubuntu2004-11-2-local_11.2.1-460.32.03-1_amd64.debsudo apt-key add /var/cuda-repo-ubuntu2004-11-2-local/7fa2af80.pubsudo apt updatesudo apt -y install cudasudo reboot
 

如果操作正确,那么在运行nvidia-smi时应该会有以下输出

最后,将以下内容粘贴到.bashrc或.zshrc中

# CUDA
export CUDA=11.2
export PATH=/usr/local/cuda-$CUDA/bin${PATH:+:${PATH}}
export CUDA_PATH=/usr/local/cuda-$CUDA
export CUDA_HOME=/usr/local/cuda-$CUDA
export LIBRARY_PATH=$CUDA_HOME/lib64:$LIBRARY_PATH
export LD_LIBRARY_PATH=/usr/local/cuda-$CUDA/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda/extras/CUPTI/lib64:$LD_LIBRARY_PATH
export NVCC=/usr/local/cuda-$CUDA/bin/nvcc
export CFLAGS="-I$CUDA_HOME/include $CFLAGS"CUDA
 

别忘了在后面加上source ~/.bashrcsource ~/.zshrc

安装cuDNN 8.1.0

为此,你需要有一个NVIDIA的账户,所以一定要先注册。完成后,前往以下链接并下载标记的文件。

https://developer.nvidia.com/rdp/cudnn-download

下载deb文件后,运行以下命令-

sudo dpkg -i libcudnn8_8.1.0.77-1+cuda11.2_amd64.deb
sudo dpkg -i libcudnn8-dev_8.1.0.77-1+cuda11.2_amd64.deb
 

这标志着NVIDIA CUDA和cuDNN安装的完成!

从源代码构建OpenCV 4.5.1

有趣的是,这让我很兴奋!本节将帮助你用CUDA, GStreamer和FFMPEG从源代码构建OpenCV !有一个很长的命令列表要执行,所以开始吧。

首先,安装python开发人员包

sudo apt install python3-dev python3-pip python3-testresources

接下来,让我们安装构建OpenCV所需的依赖项

sudo apt install build-essential cmake pkg-config unzip yasm git checkinstall
sudo apt install libjpeg-dev libpng-dev libtiff-dev
sudo apt install libavcodec-dev libavformat-dev libswscale-dev libavresample-dev
sudo apt install libgstreamer1.0-dev libgstreamer-plugins-base1.0-dev
sudo apt install libxvidcore-dev x264 libx264-dev libfaac-dev libmp3lame-dev libtheora-dev
sudo apt install libfaac-dev libmp3lame-dev libvorbis-dev
sudo apt install libopencore-amrnb-dev libopencore-amrwb-dev
sudo apt-get install libgtk-3-dev
sudo apt-get install libtbb-dev
sudo apt-get install libatlas-base-dev gfortran
sudo apt-get install libprotobuf-dev protobuf-compiler
sudo apt-get install libgoogle-glog-dev libgflags-dev
sudo apt-get install libgphoto2-dev libeigen3-dev libhdf5-dev doxygen
 

Numpy是此构建的一个关键python包。使用pip安装它

pip3 install numpy

现在,你应该为构建做好了一切准备。运行以下命令下载并解压源代码

mkdir opencvbuild && cd opencvbuild
wget -O opencv.zip https://github.com/opencv/opencv/archive/4.5.1.zip
wget -O opencv_contrib.zip https://github.com/opencv/opencv_contrib/archive/4.5.1.zip
unzip opencv.zip
unzip opencv_contrib.zip
mv opencv-4.5.1 opencv
mv opencv_contrib-4.5.1 opencv_contrib
 

让我们准备构建吧!

cd opencv
mkdir build && cd build
 

确保CUDA_ARCH_BIN根据你的GPU改变。

cmake \
-D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_C_COMPILER=/usr/bin/gcc-7 \
-D CMAKE_INSTALL_PREFIX=/usr/local -D INSTALL_PYTHON_EXAMPLES=ON \
-D INSTALL_C_EXAMPLES=ON -D WITH_TBB=ON -D WITH_CUDA=ON -D WITH_CUDNN=ON \
-D OPENCV_DNN_CUDA=ON -D CUDA_ARCH_BIN=7.5 -D BUILD_opencv_cudacodec=OFF \
-D ENABLE_FAST_MATH=1 -D CUDA_FAST_MATH=1 -D WITH_CUBLAS=1 \
-D WITH_V4L=ON -D WITH_QT=OFF -D WITH_OPENGL=ON -D WITH_GSTREAMER=ON \
-D WITH_FFMPEG=ON -D OPENCV_GENERATE_PKGCONFIG=ON \
-D OPENCV_PC_FILE_NAME=opencv4.pc -D OPENCV_ENABLE_NONFREE=ON \
-D OPENCV_EXTRA_MODULES_PATH=../../opencv_contrib/modules \
-D PYTHON_DEFAULT_EXECUTABLE=$(which python3) -D BUILD_EXAMPLES=ON ..
 

你应该会看到类似这样的成功构建

确保CUDA被检测到并且构建路径是准确的。如果一切正常,继续并执行以下命令来启动构建

make -j$(nproc)
sudo make install
 

要检查是否成功构建了OpenCV,运行这个命令

pkg-config --libs --cflags opencv4
 

在成功安装时,它应该会给你一个类似这样的输出

很高兴看到你能走到这一步!现在你应该已经完成了运行示例应用程序的所有设置。

运行应用程序

继续并克隆这个存储库并获取权重。从安装git-lfs开始

sudo apt install git git-lfs
 

使用模型文件克隆存储库

# Using HTTPS
git clone https://github.com/aj-ames/YOLOv4-OpenCV-CUDA-DNN.git
# Using SSH
git clone git@github.com:aj-ames/YOLOv4-OpenCV-CUDA-DNN.git
cd YOLOv4-OpenCV-CUDA-DNN/
git lfs install
git lfs pull
 

你可以在图像,视频摄像头,或RTSP输入运行应用程序。

# Image
python3 dnn_infernece.py --image images/example.jpg --use_gpu
# Video
python3 dnn_inference.py --stream video.mp4 --use_gpu

# RTSP
python3 dnn_inference.py --stream rtsp://192.168.1.1:554/stream --use_gpu

# Webcam
python3 dnn_inference.py --stream webcam --use_gpu
 

PS:删除--use-gpu标志来禁用GPU。适得其反,不是吗?

极客们的一些基准!

如果收益不是很大,我们就不会这么做。相信我,在GPU上运行使我的FPS增加了10–15倍!

我测试了两种配置

英特尔酷睿i5 7300HQ + NVIDIA GeForce GTX 1050Ti

英特尔至强E5–1650 v4 + NVIDIA Tesla T4

我会让数字来说话的!

|     Device     |     FPS      |    Device      |     FPS      |
| :------------: | :----------: | :------------: | :----------: |
| Core i5 7300HQ |     2.1      |   GTX 1050 Ti  |     20.1     |
| Xeon E5-1650   |     3.5      |   Tesla T4     |     42.3     |
 

尾注

GPU加速正在渗透到多个库和应用程序中,使用户能够以前所未有的速度运行更重的工作负载!计算机视觉曾经不是一项所有人都能接触到的技术,但随着神经网络的改进和硬件计算能力的提高,这一差距已经显著缩小。随着人工智能发展的速度,我们的硬件也会发展的越来越灵活!

到此这篇关于详解使用CUDA+OpenCV加速yolo v4性能的文章就介绍到这了,更多相关CUDA+OpenCV加速yolo v4内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python基于pyCUDA实现GPU加速并行计算功能入门教程

    本文实例讲述了Python基于pyCUDA实现GPU加速并行计算功能.分享给大家供大家参考,具体如下: Nvidia的CUDA 架构为我们提供了一种便捷的方式来直接操纵GPU 并进行编程,但是基于 C语言的CUDA实现较为复杂,开发周期较长.而python 作为一门广泛使用的语言,具有 简单易学.语法简单.开发迅速等优点.作为第四种CUDA支持语言,相信python一定会 在高性能计算上有杰出的贡献–pyCUDA. pyCUDA特点 CUDA完全的python实现 编码更为灵活.迅速.自适应调节

  • 详解使用CUDA+OpenCV加速yolo v4性能

    YOLO是You-Only-Look-Once的缩写,它无疑是根据COCO数据集训练的最好的对象检测器之一.YOLOv4是最新的迭代版本,它在准确性和性能之间进行了权衡,使其成为最先进的对象检测器之一.在智能视频分析管道中使用任何对象检测器的典型机制包括使用像Tensorflow或PyTorch这样能够在NVIDIA GPU上操作的库来加速模型推理. OpenCV用于图像/视频流输入,预处理和后处理的视觉效果.如果我告诉你OpenCV现在能够利用NVIDIA CUDA的优点,使用DNN模块本地运

  • 详解ubuntu安装opencv的正确方法

    本文介绍的是如何安装ubuntu下C++接口的opencv 1.安装准备: 1.1安装cmake sudo apt-get install cmake 1.2依赖环境 sudo apt-get install build-essential libgtk2.0-dev libavcodec-dev libavformat-dev libjpeg-dev libswscale-dev libtiff5-dev sudo apt-get install libgtk2.0-dev sudo apt-

  • 详解基于Facecognition+Opencv快速搭建人脸识别及跟踪应用

    人脸识别技术已经相当成熟,面对满大街的人脸识别应用,像单位门禁.刷脸打卡.App解锁.刷脸支付.口罩检测........ 作为一个图像处理的爱好者,怎能放过人脸识别这一环呢!调研开搞,发现了超实用的Facecognition!现在和大家分享下~~ Facecognition人脸识别原理大体可分为: 1.通过hog算子定位人脸,也可以用cnn模型,但本文没试过: 2.Dlib有专门的函数和模型,实现人脸68个特征点的定位.通过图像的几何变换(仿射.旋转.缩放),使各个特征点对齐(将眼睛.嘴等部位移

  • 详解使用JavaCV/OpenCV抓取并存储摄像头图像

    本程序通过JFrame实时显示本机摄像头图像,并将图像存储到一个缓冲区,当用户用鼠标点击JFrame中任何区域时,显示抓取图像的简单动画,同时保存缓冲区的图像到磁盘文件中.点击JFrame关闭按钮可以退出程序. 实现: import java.awt.Graphics2D; import java.awt.event.ActionEvent; import java.awt.event.ActionListener; import java.awt.event.MouseAdapter; imp

  • 详解如何用OpenCV + Python 实现人脸识别

    下午的时候,配好了OpenCV的Python环境,OpenCV的Python环境搭建.于是迫不及待的想体验一下opencv的人脸识别,如下文. 必备知识 Haar-like 通俗的来讲,就是作为人脸特征即可. Haar特征值反映了图像的灰度变化情况.例如:脸部的一些特征能由矩形特征简单的描述,如:眼睛要比脸颊颜色要深,鼻梁两侧比鼻梁颜色要深,嘴巴比周围颜色要深等. opencv api 要想使用opencv,就必须先知道其能干什么,怎么做.于是API的重要性便体现出来了.就本例而言,使用到的函数

  • 详解在使用CDN加速时Nginx获取用户IP的配置方法

    关于CDN 内容分发网络(Content delivery network或Content distribution network,缩写:CDN)是指一种通过互联网互相连接的电脑网络系统,利用最靠近每位用户的服务器,更快.更可靠地将音乐.图片.视频.应用程序及其他文件发送给用户,来提供高性能.可扩展性及低成本的网络内容传递给用户. 内容分发网络的总承载量可以比单一骨干最大的带宽还要大.这使得内容分发网络可以承载的用户数量比起传统单一服务器多.也就是说,若把有100Gbps处理能力的服务器放在只

  • VS2022+libtorch+Cuda11.3安装测试教程详解(调用cuda)

    目录 1.下载libtorch 2.配置VC++目录: 3.配置环境变量: 4.配置链接器: 4.1链接器--input 5.测试配置结果: 参考: 以下内容默认cuda已经安装完成并添加至系统环境变量 1.下载libtorch PyTorch 在官网下载压缩包, 可以选择Release版或者Debug版(根据自己需要): 下载完成之后选择安装软件的位置进行解压 2.配置VC++目录: VS新建空项目 2.1添加包含目录: D:\soft\libtorch\libtorch\include D:

  • 详解利用python+opencv识别图片中的圆形(霍夫变换)

    在图片中识别足球 先补充下霍夫圆变换的几个参数知识: dp,用来检测圆心的累加器图像的分辨率于输入图像之比的倒数,且此参数允许创建一个比输入图像分辨率低的累加器.上述文字不好理解的话,来看例子吧.例如,如果dp= 1时,累加器和输入图像具有相同的分辨率.如果dp=2,累加器便有输入图像一半那么大的宽度和高度. minDist,为霍夫变换检测到的圆的圆心之间的最小距离,即让我们的算法能明显区分的两个不同圆之间的最小距离.这个参数如果太小的话,多个相邻的圆可能被错误地检测成了一个重合的圆.反之,这个

  • 详解微信小程序调起键盘性能优化

    在小程序中,我们经常有调起键盘的操作场景,但是在不同的场景下解决方案不尽相同,还是需要具体问题具体分析. 需求分析 最近在项目中有一个需求,是从列表页点击评论按钮进入详情页时,在加载完页面后自动调起键盘进入评论状态.从需求来看,我们应该在onReady函数中调起键盘,因为onReady函数是在页面初次渲染完成时被调用.但是在实践中我们发现,对于一些配置不好的手机,其加载页面速度较慢,在onReady函数调用时页面并没有渲染完毕,就会导致placeholder和input组件位置错乱的现象.其本质

  • 详解OpenCV For Java环境搭建与功能演示

    OpenCV概述 OpenCV做为功能强大的计算机视觉开源框架,包含了500多个算法实现,而且还在不断增加,其最新版本已经更新到3.2.其SDK支持Android与Java平台开发,对于常见的图像处理需求几乎都可以满足,理应成为广大Java与Android程序员的首先的图像处理框架.Java中使用OpenCV的配置及其简单,可以毫不客气的说几乎是零配置都可以. 一:配置 配置引入OpenCV相关jar包,首先要下载OpenCV的自解压版本,下载地址: http://opencv.org/open

随机推荐