深入了解Python Opencv数据增强

2025-02-07 08:55:44

1.按比例放大和缩小

扩展缩放只是改变图像的尺寸大小。OpenCV 提供的函数 cv2.resize()可以实现这个功能。图像的尺寸可以自己手动设置，也可以指定缩放因子。可以选择使用不同的插值方法。在缩放时我们推荐使用 cv2.INTER_AREA，在扩展时我们推荐使用 v2.INTER_CUBIC（慢) 和 v2.INTER_LINEAR。默认情况下所有改变图像尺寸大小的操作使用的插值方法都是 cv2.INTER_LINEAR。

# 缩小 -- 宽和高都缩小为原来的scale倍
def zoom_down(img,scale):
    img = cv2.resize(img,None,fx= scale,fy= scale,interpolation=cv2.INTER_CUBIC)
    return img

# 放大 -- 宽和高都放大为原来的scale倍
def zoom_up(img,scale):
    img = cv2.resize(img,None,fx= scale,fy= scale,interpolation=cv2.INTER_CUBIC)
    return img

resize库中第二个参数是目标大小，例如如果我想把图片resize成300*300大小的，可以这么写：

img = cv2.resize(img,(300,300))

2.平移图像

平移就是将对象换一个位置。如果你要沿（x，y）方向移动，移动的距离是（tx，ty），你可以以下面的方式构建移动矩阵：

可以使用 Numpy 数组构建这个矩阵（数据类型是 np.float32），然后把它传给函数cv2.warpAffine()。

mat_translation = np.float32([[1, 0, 20], [0, 1, 30]])

例如上面是的矩阵是将图像往水平方向上移动20个像素点，竖直方向上移动30个像素点。

实例：

# 平移 -- 水平平移或竖直方向平移
def translation(img,tx,ty):
    height = img.shape[0]
    width = img.shape[1]
    mat_translation = np.float32([[1, 0, tx], [0, 1, ty]]) # 变换矩阵：设置平移变换所需的计算矩阵：2行3列
    img = cv2.warpAffine(img, mat_translation, (width + tx, height + ty))  # 变换函数
    return img

我这里封装的tx和ty分别为水平和竖直方向需要移动的像素点数。

3.旋转图像

OpenCV 提供了一个函数：cv2.getRotationMatrix2D

# 旋转
def rotation(img,angle,scale):
    rows = img.shape[0]
    cols = img.shape[1]
    # 这里的第一个参数为旋转中心，第二个为旋转角度，第三个为旋转后的缩放因子
    # 可以通过设置旋转中心，缩放因子，以及窗口大小来防止旋转后超出边界的问题
    M = cv2.getRotationMatrix2D((cols / 2, rows / 2), angle, scale) # 向左旋转angle度并缩放为原来的scale倍
    img = cv2.warpAffine(img, M, (cols, rows)) # 第三个参数是输出图像的尺寸中心
    return img

4.镜像变换

Opencv提供了cv2.flip()函数，可以第二个参数为1时为水平翻转，为0时垂直翻转。为了后面调用方便，我还是自己封装了一下。

# 镜像变换
def mirror(img,mode):
    img = cv2.flip(img, mode)  # mode = 1 水平翻转 mode = 0 垂直翻
    return img

5.添加椒盐噪声

椒盐噪声为纯黑或纯白的像素点，随机生成。

# 添加椒盐噪声
def spiced_salt_noise(img,prob):
    output = np.zeros(img.shape,np.uint8)
    thres = 1 - prob
    for i in range(img.shape[0]):
        for j in range(img.shape[1]):
            rdn = random.random()
            if rdn < prob:
                output[i][j] = 0 # 椒盐噪声由纯黑和纯白的像素点随机组成
            elif rdn > thres:
                output[i][j] = 255
            else:
                output[i][j] = img[i][j]
    return output

6.添加高斯噪声

与椒盐噪声不同，高斯噪声是彩色的，方差越大时噪声越大。

# 添加高斯噪声
def gasuss_noise(image, mean = 0, var = 0.01):
    '''
        添加高斯噪声
        mean : 均值
        var : 方差，方差越大越模糊
    '''
    image = np.array(image/255, dtype=float)
    noise = np.random.normal(mean, var ** 0.5, image.shape)
    out = image + noise
    if out.min() < 0:
        low_clip = -1.
    else:
        low_clip = 0.
    out = np.clip(out, low_clip, 1.0)
    out = np.uint8(out*255)
    return out

7.模糊化

将图片模糊或平滑有多种算法，例如高斯模糊、中值模糊、均值模糊等，我这里使用一个比较普通的cv2.blur()实现。同样也是先封装方便我后面调用。

# 模糊
def blur(img,scale):
    img = cv2.blur(img,(scale,scale)) # scale越大越模糊
    return img

这里的scale其实就是滤波器的尺寸，一般取奇数，scale越大越模糊，

8.重新组合颜色通道

在opencv中，图像的通道顺序为BGR，也就是蓝绿红，可以改变成其他顺序以得到不同的效果。

# 重新组合颜色通道
def change_channel(img):
    b = cv2.split(img)[0]
    g = cv2.split(img)[1]
    r = cv2.split(img)[2]
    brg = cv2.merge([b, r, g]) # 可以自己改变组合顺序
    return brg

实例

我有以下几张测试图片：

我希望随机地对这些图片进行一些变换，最终执行结果如下：

可以看到程序对我的图片随机进行了各种变换，我这里只是一次变换，读者也可以尝试对图片同时进行多种变换。

本次程序如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2022/2/18 16:30
# @Author : 若谷
# @File : Data_Augumentation.py
# @Software: PyCharm
import numpy as np
import cv2
import random
import os
import sys

# 缩小 -- 宽和高都缩小为原来的scale倍
def zoom_down(img, scale):
    img = cv2.resize(img, None, fx=scale, fy=scale, interpolation=cv2.INTER_CUBIC)
    return img

# 放大 -- 宽和高都放大为原来的scale倍
def zoom_up(img, scale):
    img = cv2.resize(img, None, fx=scale, fy=scale, interpolation=cv2.INTER_CUBIC)
    return img

# 平移 -- 水平平移或竖直方向平移
def translation(img, tx, ty):
    height = img.shape[0]
    width = img.shape[1]
    mat_translation = np.float32([[1, 0, tx], [0, 1, ty]])  # 变换矩阵：设置平移变换所需的计算矩阵：2行3列
    img = cv2.warpAffine(img, mat_translation, (width + tx, height + ty))  # 变换函数
    return img

# 旋转
def rotation(img, angle, scale):
    rows = img.shape[0]
    cols = img.shape[1]
    # 这里的第一个参数为旋转中心，第二个为旋转角度，第三个为旋转后的缩放因子
    # 可以通过设置旋转中心，缩放因子，以及窗口大小来防止旋转后超出边界的问题
    M = cv2.getRotationMatrix2D((cols / 2, rows / 2), angle, scale)  # 向左旋转angle度并缩放为原来的scale倍
    img = cv2.warpAffine(img, M, (cols, rows))  # 第三个参数是输出图像的尺寸中心
    return img

# 镜像变换
def mirror(img, mode):
    img = cv2.flip(img, mode)  # mode = 1 水平翻转 mode = 0 垂直翻
    return img

# 添加椒盐噪声
def spiced_salt_noise(img, prob):
    output = np.zeros(img.shape, np.uint8)
    thres = 1 - prob
    for i in range(img.shape[0]):
        for j in range(img.shape[1]):
            rdn = random.random()
            if rdn < prob:
                output[i][j] = 0  # 椒盐噪声由纯黑和纯白的像素点随机组成
            elif rdn > thres:
                output[i][j] = 255
            else:
                output[i][j] = img[i][j]
    return output

# 模糊
def blur(img, scale):
    img = cv2.blur(img, (scale, scale))  # scale越大越模糊
    return img

# 添加高斯噪声
def gasuss_noise(image, mean=0, var=0.01):
    '''
        添加高斯噪声
        mean : 均值
        var : 方差，方差越大越模糊
    '''
    image = np.array(image / 255, dtype=float)
    noise = np.random.normal(mean, var ** 0.5, image.shape)
    out = image + noise
    if out.min() < 0:
        low_clip = -1.
    else:
        low_clip = 0.
    out = np.clip(out, low_clip, 1.0)
    out = np.uint8(out * 255)
    return out

# 重新组合颜色通道
def change_channel(img):
    b = cv2.split(img)[0]
    g = cv2.split(img)[1]
    r = cv2.split(img)[2]
    brg = cv2.merge([b, r, g])  # 可以自己改变组合顺序
    return brg

# 随机进行以上操作
def Data_Augument():
    for i in images_list:
        img = cv2.imread(image_dir+i) # 图片路径+图片名字
        cv2.imshow('img',img)
        functions = [('zoom_down', [img, 0.8]), # 第一个参数为函数名,后面为函数调用时的参数
                     ('zoom_up', [img, 1.2]),
                     ('translation', [img, 20, 30]),
                     ('rotation', [img, 15, 0.9]),
                     ('mirror', [img, 1]),
                     ('spiced_salt_noise', [img, 0.01]),
                     ('blur', [img, 5]),
                     ('gasuss_noise', [img, 0, 0.01]),
                     ('change_channel', [img])]
        choice = random.choice(functions) # 随机选择一个函数执行
        this_module = sys.modules[__name__]  # 当前文件

        res = getattr(this_module, choice[0])(*choice[1])
        cv2.imwrite(output_dir + i, res)

if __name__ == '__main__':
    image_dir = './test/' # 源图片路径
    images_list = os.listdir(image_dir)
    nums = len(os.listdir(image_dir))
    print('found %d pictures' % nums)
    output_dir = './output/' # 图像变换后的保存路径
    Data_Augument() # 执行
    print('finished!')

总结

还有其他很多的数据增强操作，例如随机裁剪图像、添加颜色扰动等等。另外也有其他库可以进行这些操作，例如Keras中的图片预处理process库。我这种是离线式的，希望能将变换后的图片保存下来。

以上就是深入了解Python Opencv数据增强的详细内容，更多关于Python Opencv数据增强的资料请关注我们其它相关文章！

python opencv旋转图片的使用方法

背景在图像处理中,有的时候会有对图片进行角度旋转的处理,尤其是在计算机视觉中对于图像扩充,旋转角度扩充图片是一种常见的处理.这种旋转图片的应用场景也比较多,比如用户上传图片是竖着的时候,不好进行处理,也需要对其进行旋转,以便后续算法处理.常见的旋转处理有两种方式,一种是转化为numpy矩阵后,对numpy矩阵进行处理,另外一种是使用opencv自带的函数进行各种变换处理,以实现旋转角度的结果. 原始图像: opencv函数旋转中常用的函数有以下几个函数 cv2.transpose: 对图像矩
Python OpenCV 图像平移的实现示例

每次学习新东西的时候,橡皮擦都是去海量检索,然后找到适合自己理解的部分. 再将其拼凑成一个小的系统,争取对该内容有初步理解. 今天这 1 个小时,核心要学习的是图像的平移,在电脑上随便打开一张图片,实现移动都非常简单,但是在代码中,出现了一些新的概念. 检索 OpenCV 图像平移相关资料时,碰到的第一个新概念是就是仿射变换. 每次看到这样子的数学名字,必然心中一凉,做为一个数学小白,又要瑟瑟发抖了. 百度一下,看看百科中是如何介绍的. 看过上图中的一些相关简介之后,对于这个概念也并没有太深刻
Python3+OpenCV2实现图像的几何变换(平移、镜像、缩放、旋转、仿射)

前言总结一下最近看的关于opencv图像几何变换的一些笔记. 这是原图: 1.平移 import cv2 import numpy as np img = cv2.imread("image0.jpg", 1) imgInfo = img.shape height = imgInfo[0] width = imgInfo[1] mode = imgInfo[2] dst = np.zeros(imgInfo, np.uint8) for i in range( height ): f
在Python下利用OpenCV来旋转图像的教程

OpenCV是应用最被广泛的的开源视觉库.他允许你使用很少的代码来检测图片或视频中的人脸. 这里有一些互联网上的教程来阐述怎么在OpenCV中使用仿射变换(affine transform)旋转图片--他们并没有处理旋转一个图片里的矩形一般会把矩形的边角切掉这一问题,所以产生的图片需要修改.当正确的使用一点代码时,这是一点瑕疵. def rotate_about_center(src, angle, scale=1.): w = src.shape[1] h = src.shape[0] ran
使用Python-OpenCV向图片添加噪声的实现(高斯噪声、椒盐噪声)

在matlab中,存在执行直接得函数来添加高斯噪声和椒盐噪声.Python-OpenCV中虽然不存在直接得函数,但是很容易使用相关的函数来实现. 代码: import numpy as np import random import cv2 def sp_noise(image,prob): ''' 添加椒盐噪声 prob:噪声比例 ''' output = np.zeros(image.shape,np.uint8) thres = 1 - prob for i in range(image.
python opencv画局部放大图实例教程

目录为什么要画局部放大图? 程序逻辑程序实例总结这项功能的目的是为了方便使用opencv做图像标注工具. 为什么要画局部放大图? 在做图像数据标注时,很难一次就做到精准标注,经常需要微调才能达到比较好的标注效果.如果目标比较小,即使微调也难以做到精准,所以就需要另外一个窗口对标注区域进行局部放大以方便微调. 程序逻辑本文中标注信息以矩形框作为示例,矩形框是图像标注中最常用到的一种标注信息形态.其他标注信息的设计逻辑雷同. 程序主要逻辑是:鼠标在任意窗口中做的操作都要同步映射到另外一个窗
深入了解Python Opencv数据增强

目录 1.按比例放大和缩小 2.平移图像 3.旋转图像 4.镜像变换 5.添加椒盐噪声 6.添加高斯噪声 7.模糊化 8.重新组合颜色通道实例总结常见的数据增强操作有:按比例放大或缩小图片.旋转.平移.水平翻转.改变图像通道等. 1.按比例放大和缩小扩展缩放只是改变图像的尺寸大小.OpenCV 提供的函数 cv2.resize()可以实现这个功能.图像的尺寸可以自己手动设置,也可以指定缩放因子.可以选择使用不同的插值方法.在缩放时我们推荐使用 cv2.INTER_AREA,在扩展时我
深入了解Python Opencv数据增强

目录 1.按比例放大和缩小 2.平移图像 3.旋转图像 4.镜像变换 5.添加椒盐噪声 6.添加高斯噪声 7.模糊化 8.重新组合颜色通道实例总结常见的数据增强操作有:按比例放大或缩小图片.旋转.平移.水平翻转.改变图像通道等. 1.按比例放大和缩小扩展缩放只是改变图像的尺寸大小.OpenCV 提供的函数 cv2.resize()可以实现这个功能.图像的尺寸可以自己手动设置,也可以指定缩放因子.可以选择使用不同的插值方法.在缩放时我们推荐使用 cv2.INTER_AREA,在扩展时我
python神经网络学习数据增强及预处理示例详解

目录学习前言处理长宽不同的图片数据增强 1.在数据集内进行数据增强 2.在读取图片的时候数据增强 3.目标检测中的数据增强学习前言进行训练的话,如果直接用原图进行训练,也是可以的(就如我们最喜欢Mnist手写体),但是大部分图片长和宽不一样,直接resize的话容易出问题. 除去resize的问题外,有些时候数据不足该怎么办呢,当然要用到数据增强啦. 这篇文章就是记录我最近收集的一些数据预处理的方式处理长宽不同的图片对于很多分类.目标检测算法,输入的图片长宽是一样的,如224,22
分析语音数据增强及python实现

目录一.概述二.加噪 2.1.第一种:控制噪声因子 2.2.第二种:控制信噪比三.加混响 3.1.方法一:Pyroomacoustics实现音频加混响 3.2.方法二:Image Source Method 算法讲解四.生成指定SER的混响五.波形位移六.波形拉伸七.音高修正(Pitch Shifting) 一.概述音频时域波形具有以下特征:音调,响度,质量.我们在进行数据增强时,最好只做一些小改动,使得增强数据和源数据存在较小差异即可,切记不能改变原有数据的结构,不然将产生"脏
Python深度学习albumentations数据增强库

数据增强的必要性深度学习在最近十年得以风靡得益于计算机算力的提高以及数据资源获取的难度下降.一个好的深度模型往往需要大量具有label的数据,使得模型能够很好的学习这种数据的分布.而给数据打标签往往是一件耗时耗力的工作. 拿cv里的经典任务为例,classification需要人准确识别物品类别或者生物种类,object detection需要人工画出bounding box, 确定其坐标,semantic segmentation甚至需要在像素级别进行标签标注.对于一些专业领域的图像标注,依
python目标检测YoloV4当中的Mosaic数据增强方法

目录什么是Mosaic数据增强方法实现思路全部代码什么是Mosaic数据增强方法 Yolov4的mosaic数据增强参考了CutMix数据增强方式,理论上具有一定的相似性! CutMix数据增强方式利用两张图片进行拼接. 但是mosaic利用了四张图片,根据论文所说其拥有一个巨大的优点是丰富检测物体的背景!且在BN计算的时候一下子会计算四张图片的数据!就像下图这样: 实现思路 1.每次读取四张图片. 2.分别对四张图片进行翻转.缩放.色域变化等,并且按照四个方向位置摆好. 3.进行图片的
python目标检测数据增强的代码参数解读及应用

目录数据增强做了什么目标检测中的图像增强全部代码数据增强做了什么数据增强是非常重要的提高目标检测算法鲁棒性的手段,学习一下对身体有好处! 数据增强其实就是让图片变得更加多样.比如说原图是一个电脑如果不使用数据增强的话这个电脑就只是一个电脑,每次训练的电脑都是这样的样子的,但是我们实际生活中电脑是多样的. 因此我们可以通过改变亮度,图像扭曲等方式使得图像变得更加多种多样,如下图所示,尽管亮度,形态发生了细微改变,但本质上,这些东西都依然是电脑. 改变后的图片放入神经网络进行训练可以提高
基于Python的图像数据增强Data Augmentation解析

1.1 简介深层神经网络一般都需要大量的训练数据才能获得比较理想的结果.在数据量有限的情况下,可以通过数据增强(Data Augmentation)来增加训练样本的多样性, 提高模型鲁棒性,避免过拟合. 在计算机视觉中,典型的数据增强方法有翻转(Flip),旋转(Rotat ),缩放(Scale),随机裁剪或补零(Random Crop or Pad),色彩抖动(Color jittering),加噪声(Noise) 笔者在跟进视频及图像中的人体姿态检测和关键点追踪(Human Pose Es
python+opencv实现视频抽帧示例代码

1.数据集简述: 虽然有主流庞大的COCO.VOC数据集,但是科研人员仍需要特殊领域要求的数据集,所以采用人工实地采集的方式进行收集数据集图像:通过拍照收集图像过于繁琐,所以通常是将摄像头无规则的移动旋转以及远近拉缩,进而录制视频:再通过视频抽帧的方式得到大量的图像,再将这些图像进行人工标注处理. 博主通过一个水下录制视频为例子,当这类图像在网上鲜有存在时,要求有关技术人员进行实拍采集,下图即为采集得到的视频. 为了避免不符合项目要求的数据增强,博主要求技术人员在录制视频时最大程度地让摄像头进行
Python+OpenCV进行人脸面部表情识别

目录前言一.图片预处理二.数据集划分三.识别笑脸四.Dlib提取人脸特征识别笑脸和非笑脸前言环境搭建可查看Python人脸识别微笑检测数据集可在https://inc.ucsd.edu/mplab/wordpress/index.html%3Fp=398.html获取数据如下: 一.图片预处理 import dlib # 人脸识别的库dlib import numpy as np # 数据处理的库numpy import cv2 # 图像处理的库OpenCv import os