基于Python制作图像完美超分处理工具

2025-06-14 04:06:42

前言

很久没更新这个专栏了，最近比较忙。前段时间看到了这个模型觉着很有意思，弄下来自己玩了玩，但是没时间写文章，一直搁置到现在。

废话不多说，先上Github地址： RealBasicVSR地址

从给出的效果来看，还是很不错的，左侧是超分后的画面，右边是原画质，得到明显提升。下面我说一下我的安装过程，还有一些使用中的踩坑，让大家去测试项目的时候可以提前规避。

安装

项目拉下来之后，我们先打开README，看看说明。

安装的步骤不多，但是还是有一些坑的，下面是我的安装步骤，如果你们自己安装的有问题的话，可以参考一下我的步骤。

1、虚拟环境创建

作者没有给出需要的python版本，这里我用的python3.8

conda create -n real python=3.8
conda activate real

2、安装pytorch

这里本来我以为我现在的最新版本可以跑的，后面发现不行，所以老老实实的按照作者的版本安装。

conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.1 -c pytorch

3、安装openmim

这里没什么好说的，装就完了。

pip install openmim -i https://pypi.douban.com/simple

4、安装mmcv-full

同上

mim install mmcv-full

5、安装mmedit

同上

pip install mmedit -i https://pypi.douban.com/simple

6、安装scipy

这个作者没写，但是要装。

pip install scipy -i https://pypi.douban.com/simple

7、模型下载

嗯，在外网比较难下，我下好了，放到我的百度云盘。

链接提取码：1234

在项目中创建文件夹checkpoints，把下载的文件放进去。如下图

使用

ok，环境装好了，我们看看怎么使用。

作者提供了图片文件夹处理方式和视频处理方式，我们挨个测一下。

图片超分

我就不准备用作者提供的demo图了，我自己找了一张，如下图。

图片尺寸

放置目录如下

执行命令如下

python inference_realbasicvsr.py configs/realbasicvsr_x4.py checkpoints/RealBasicVSR_x4.pth data/demo_001 results/demo_001

执行结果

2022-05-08 10:57:06,303 - mmedit - INFO - load checkpoint from torchvision path: torchvision://vgg19
load checkpoint from local path: checkpoints/RealBasicVSR_x4.pth
/home/zhangmaolin/.local/lib/python3.7/site-packages/torch/functional.py:445: UserWarning: torch.meshgrid: in an upcoming release, it will be required to pass the indexing argument. (Triggered internally at ../aten/src/ATen/native/TensorShape.cpp:2157.)
return _VF.meshgrid(tensors, **kwargs) # type: ignore[attr-defined]

结果图如下

可以看出明显的清楚了很多。

结果图尺寸

视频超分

然后我们看看视频超分的情况，这部分是有一些坑的，后面会说到。

首先我准备了一个视频，视频分别率如下。

可以看到视频分辨率540p。

执行命令如下，里面有作者给出样例没有的参数，我后面注意里面会解释。

python inference_realbasicvsr.py configs/realbasicvsr_x4.py checkpoints/RealBasicVSR_x4.pth data/12345.mp4 results/demo_123.mp4 --fps=25 --max_seq_len=2

执行结果

2022-05-08 11:02:01,023 - mmedit - INFO - load checkpoint from torchvision path: torchvision://vgg19
load checkpoint from local path: checkpoints/RealBasicVSR_x4.pth
/home/zhangmaolin/.local/lib/python3.7/site-packages/torch/functional.py:445: UserWarning: torch.meshgrid: in an upcoming release, it will be required to pass the indexing argument. (Triggered internally at ../aten/src/ATen/native/TensorShape.cpp:2157.)
return _VF.meshgrid(tensors, **kwargs) # type: ignore[attr-defined]

最终视频分辨率情况

注意

1、首先，视频原长度是2分钟的，我截取到5s的视频进行超分处理的。不然会显存溢出。

2、--max_seq_len=2参数也是为了避免显存溢出，总的来看，这个模型不太适合直接跑视频，最好的方式还是跑图片序列，然后最后压缩图片为视频比较好。

压缩图片为对比视频样例

作者给了一个demo程序可以将输出的图片压缩为前后对比视频，如下图说明。

我测试了一下，代码这里需要改动一下，代码框出的部分需要把注释取消。

对比视频如下图，左边为超分后效果，右边为原图效果。

项目说明

我把项目进行的工具化调整，做成了对单一照片输入进行处理的工具。大家可以拿去直接集成到代码中使用。

github项目地址：工具项目地址

项目结构如下

注意项

1、 checkpoints中的模型文件太大，上传不到github上，大家可以通过下面我分享的百度云盘地址下载，放到checkpoints目录中。

链接提取码：1234

2、conda环境安装，我这里就不多叙述了，直接参考前言中的安装过程即可。

代码说明

主要的核心代码是inference_hy.py文件，代码如下：

#!/user/bin/env python
# coding=utf-8
"""
@project : hy_realbasicvsr
@author  : 剑客阿良_ALiang
@file   : inference_hy.py
@ide    : PyCharm
@time   : 2022-05-08 15:18:15
"""
import argparse
import glob
import os

import cv2
import mmcv
import numpy as np
import torch
import uuid
from mmcv.runner import load_checkpoint
from mmedit.core import tensor2img

from realbasicvsr.models.builder import build_model

def init_model(config, checkpoint=None):
    if isinstance(config, str):
        config = mmcv.Config.fromfile(config)
    elif not isinstance(config, mmcv.Config):
        raise TypeError('config must be a filename or Config object, '
                        f'but got {type(config)}')
    config.model.pretrained = None
    config.test_cfg.metrics = None
    model = build_model(config.model, test_cfg=config.test_cfg)
    if checkpoint is not None:
        checkpoint = load_checkpoint(model, checkpoint)

    model.cfg = config  # save the config in the model for convenience
    model.eval()

    return model

class Worker:
    def __init__(self):
        self.checkpoint_path = 'checkpoints/RealBasicVSR_x4.pth'
        self.config = 'configs/realbasicvsr_x4.py'
        self.is_save_as_png = True
        self.max_seq_len = 2
        self.model = init_model(self.config, self.checkpoint_path)

    def do_pic(self, input_image_path: str, output_dir: str):
        inputs = []
        img = mmcv.imread(input_image_path, channel_order='rgb')
        ext = os.path.basename(input_image_path).split('.')[-1]
        inputs.append(img)
        for i, img in enumerate(inputs):
            img = torch.from_numpy(img / 255.).permute(2, 0, 1).float()
            inputs[i] = img.unsqueeze(0)
        inputs = torch.stack(inputs, dim=1)
        # map to cuda, if available
        cuda_flag = False
        if torch.cuda.is_available():
            model = self.model.cuda()
            cuda_flag = True
        with torch.no_grad():
            if isinstance(self.max_seq_len, int):
                outputs = []
                for i in range(0, inputs.size(1), self.max_seq_len):
                    imgs = inputs[:, i:i + self.max_seq_len, :, :, :]
                    if cuda_flag:
                        imgs = imgs.cuda()
                    outputs.append(self.model(imgs, test_mode=True)['output'].cpu())
                outputs = torch.cat(outputs, dim=1)
            else:
                if cuda_flag:
                    inputs = inputs.cuda()
                outputs = self.model(inputs, test_mode=True)['output'].cpu()
        mmcv.mkdir_or_exist(output_dir)
        for i in range(0, outputs.size(1)):
            output = tensor2img(outputs[:, i, :, :, :])
            filename = '{}.{}'.format(uuid.uuid1().hex, ext)
            if self.is_save_as_png:
                file_extension = os.path.splitext(filename)[1]
                filename = filename.replace(file_extension, '.png')
            result_path = os.path.join(output_dir, filename)
            mmcv.imwrite(output, result_path)

if __name__ == '__main__':
    worker = Worker()
    worker.do_pic('data/136.jpeg', 'results/')

代码说明

1、如果在真实项目中使用的话，worker对象可以在项目启动中创建，不需要每次调用时候创建。

2、主要使用方法为do_pic方法，入参分别为：需要超分的照片地址，以及最后生成的目录地址。

3、最终输出的照片名使用uuid进行命名，如果需要自定义的话，可以看着调整。

4、输出的文件格式不一定需要是png，上面的类初始化有bool选项，自行调整。

测试一下代码，先看一下图片。

执行结果

2022-05-08 15:47:54,792 - mmedit - INFO - load checkpoint from torchvision path: torchvision://vgg19
load checkpoint from local path: checkpoints/RealBasicVSR_x4.pth
/home/zhangmaolin/.local/lib/python3.7/site-packages/torch/functional.py:445: UserWarning: torch.meshgrid: in an upcoming release, it will be required to pass the indexing argument. (Triggered internally at ../aten/src/ATen/native/TensorShape.cpp:2157.)
return _VF.meshgrid(tensors, **kwargs) # type: ignore[attr-defined]

最终图片输出

总结

本文主要是造个轮子吧，相信有经验的可以自己改造，包括视频处理也可以不要使用作者的demo，自己优化一下逻辑，性能应该都跟得上。提供思路吧，视频拆分图片组和音频，处理完之后压缩为一个视频。

以上就是基于Python制作图像完美超分处理工具的详细内容，更多关于Python图像超分处理的资料请关注我们其它相关文章！

Python图片处理之图片采样处理详解

目录一.图像采样处理原理二.图像采样实现三.图像局部采样处理四.总结一.图像采样处理原理图像采样(Image Sampling)处理是将一幅连续图像在空间上分割成M×N个网格,每个网格用一个亮度值或灰度值来表示,其示意图如图9-1所示. 图像采样的间隔越大,所得图像像素数越少,空间分辨率越低,图像质量越差,甚至出现马赛克效应:相反,图像采样的间隔越小,所得图像像素数越多,空间分辨率越高,图像质量越好,但数据量会相应的增大.图9-2展示了不同采样间隔的“Lena”图,其中图(a)为原始
Python图像处理之图像金字塔详解

目录一.图像金字塔原理二.图像向上取样三.图像向下取样四.总结一.图像金字塔原理上一篇文章讲解的图像采样处理可以降低图像的大小,本文将补充图像金字塔知识,了解专门用于图像向上采样和向下采样的pyrUp()和pyrDown()函数. 图像金字塔是指由一组图像且不同分别率的子图集合,它是图像多尺度表达的一种,以多分辨率来解释图像的结构,主要用于图像的分割或压缩.一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低,且来源于同一张原始图的图像集合.如图10-1所示,它包括了四层图像,将
python 对图片进行简单的处理

目录安装Pillow包图片划线图片写字图片加图片水印图片模糊图片截取总结安装Pillow包 pip install Pillow 图片划线 from PIL import Image, ImageDraw im = Image.open("blur.jpg") draw = ImageDraw.Draw(im) draw.line((0, 0) + im.size, fill=128) draw.line((0, im.size[1], im.size[0], 0),
python 实现图片特效处理

目录一.黑白特效二.流年特效三.旧电影特效四.反色特效前言: 对于图片处理,在日常生活中我们常常能够看到. 比如发个朋友圈之前,我们需要给自己的照片加个滤镜:在上传头像时候,需要对照片进行裁剪,这些都是图片的处理. 待处理的原图: 一.黑白特效将图片处理后,变为黑白颜色把像素的R,G,B三个通道数值都置为:r*0.299+g*0.587+b*0.114 效果黑白特效: 代码: #!/usr/bin/env python # encoding: utf-8
Python图像处理之几何变换

目录一.图像几何变换二.图像平移三.图像缩放四.图像旋转五.总结一.图像几何变换图像几何变换不改变图像的像素值,在图像平面上进行像素变换.适当的几何变换可以最大程度地消除由于成像角度.透视关系乃至镜头自身原因所造成的几何失真所产生的负面影响.几何变换常常作为图像处理应用的预处理步骤,是图像归一化的核心工作之一[1]. 一个几何变换需要两部分运算: 空间变换:包括平移.缩放.旋转和正平行投影等,需要用它来表示输出图像与输入图像之间的像素映射关系. 灰度插值算法:按照这种变换关系进行计
Python图像处理之图像量化处理详解

目录一.图像量化处理原理二.图像量化实现三.图像量化等级对比四.K-Means聚类实现量化处理五.总结一.图像量化处理原理量化(Quantization)旨在将图像像素点对应亮度的连续变化区间转换为单个特定值的过程,即将原始灰度图像的空间坐标幅度值离散化.量化等级越多,图像层次越丰富,灰度分辨率越高,图像的质量也越好:量化等级越少,图像层次欠丰富,灰度分辨率越低,会出现图像轮廓分层的现象,降低了图像的质量.图8-1是将图像的连续灰度值转换为0至255的灰度级的过程[1-3]. 如果
基于Python制作图像完美超分处理工具

目录前言安装使用图片超分视频超分项目说明代码说明总结前言很久没更新这个专栏了,最近比较忙.前段时间看到了这个模型觉着很有意思,弄下来自己玩了玩,但是没时间写文章,一直搁置到现在. 废话不多说,先上Github地址: RealBasicVSR地址从给出的效果来看,还是很不错的,左侧是超分后的画面,右边是原画质,得到明显提升.下面我说一下我的安装过程,还有一些使用中的踩坑,让大家去测试项目的时候可以提前规避. 安装项目拉下来之后,我们先打开README,看看说明. 安装的步骤
基于Python制作B站视频下载小工具

目录 1. 原理简介 2. 网页分析 3. 视频爬取 4. 存入本地 5. GUI工具制作 1. 原理简介原理很简单,就是获取视频资源的源地址,然后爬取视频的二进制内容,再写入到本地即可. 2. 网页分析打开该网页,然后F12进入开发者模式,接着点开网络—>全部,因为视频资源一般比较大,我这里根据大小进行了从大到小的排序,找到了第一条这些可能和视频源地址有关. 然后,我们复制找到的这条里的url部分不变的部分,回到元素中ctrl+F搜索,找到了可能和视频源地址有关的节点. 果然,我们复制这部
基于Python制作一个多进制转换工具

目录前言主要步骤完整代码前言学习资料下载链接提取码:tha8 进制转换计算工具含源文件主要步骤导入模块 import tkinter from tkinter import * import tkinter as tk from tkinter.ttk import * 整个框架的主结构 root = Tk() root.title('贱工坊-进制转换计算') # 程序的标题名称 root.geometry("580x400+512+288") # 窗口的大小及页面的
基于Python制作一键桌面整理工具

目录前言效果展示开发思路完整代码前言我承认我不是一个爱整理桌面的人,因为我觉得乱糟糟的桌面,反而容易找到文件. 哈哈,可是最近桌面实在是太乱了,自己都看不下去了,几乎占满了整个屏幕.虽然一键整理桌面的软件很多,但是对于其他路径下的文件,我同样需要整理,于是我想到使用Python,完成这个需求. 效果展示我一共为将文件分为9个大类,分别是图片.视频.音频.文档.压缩文件.常用格式.程序脚本.可执行程序和字体文件. # 不同文件组成的嵌套字典 file_dict = { '图片': [
基于Python制作三款起床闹钟的示例代码

目录导语一.Turtle绘制时钟 1)代码展示 2)效果展示二.Turtle实现模拟时钟 1)代码展示 2)效果展示三.简易时钟 1)代码展示 2)效果展示导语叮叮叮,我们要按时长大我是你们的木子同学!当当当当——隆重出场,撒花撒花~ 嗨!大家有没有生物钟不准时的时候,是不是每到休息日或者长假就会经常要倒时差? 每天上班最痛苦的事情就是早起早起早起!这是大部分上班族的痛苦,但是不上班又是不可能的啦,因为都是为了搞钱今天小编就用代码示例化,给大家展示一下不同的时钟,希望大家按时上班
如何基于Python制作有道翻译小工具

这篇文章主要介绍了如何基于Python制作有道翻译小工具,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下该工具主要是利用了爬虫,爬取web有道翻译的内容. 然后利用简易GUI来可视化结果. 首先我们进入有道词典的首页,并点击翻译结果的审查元素之后request响应网页,并分析网页,定位到翻译结果. 使用tkinter来制作一个建议的GUI 期间遇到的一个问题则是如何刷新翻译的结果,否则的话会在text里一直累加翻译结果. 于是,在mainlo
详解基于python的图像Gabor变换及特征提取

1.前言在深度学习出来之前,图像识别领域北有"Gabor帮主",南有"SIFT慕容小哥".目前,深度学习技术可以利用CNN网络和大数据样本搞事情,从而取替"Gabor帮主"和"SIFT慕容小哥"的江湖地位.但,在没有大数据和算力支撑的"乡村小镇"地带,或是对付"刁民小辈","Gabor帮主"可以大显身手,具有不可撼动的地位.IT武林中,有基于C++和OpenCV,或
基于Python的图像阈值化分割(迭代法)

1.阈值化分割原理通过对图像的灰度直方图进行数学统计,选择一个或多个阈值将像素划分为若干类.一般情况下,当图像由灰度值相差较大的目标和背景组成时,如果目标区域内部像素灰度分布均匀一致,背景区域像素在另一个灰度级上也分布均匀,这时图像的灰度直方图会呈现出双峰特性. 在这种情况下,选取位于这两个峰值中间的谷底对应的灰度值T作为灰度阈值,将图像中各个像素的灰度值与这个阈值进行比较,根据比较的结果将图像中的像素划分到两个类中.像素灰度值大于阈值T的像素点归为一类,其余像素点归为另一类.经阈值化处理后的
基于python制作简易版学生信息管理系统

一.前言本篇博客对于文件操作.字典.列表.匿名函数以及sort()等内置函数进行了系统的整理操作,以设计一个学生信息管理系统的形式展示,具体概念方法等会在代码后进行分析讲述,请读者仔细分析每一处解析,对于基础巩固将会有很大的帮助,其中还有每一块代码的设计思路图,逻辑分析会有一定的提升. 二.需求分析本程序需要用到os模板首先导入,并命名要存储信息的文件 import os File_Object_Name = 'Student_Inforation.txt' 三.主函数 def Main()
基于Python实现图像文字识别OCR工具

目录引言功能列表 OCR部分界面部分软件代码参考链接引言最近在技术交流群里聊到一个关于图像文字识别的需求,在工作.生活中常常会用到,比如票据.漫画.扫描件.照片的文本提取. 博主基于 PyQt + PaddleOCR 写了一个桌面端的OCR工具,用于快速实现图片中文本区域自动检测+文本自动识别. 识别效果如下图所示: 所有框选区域为OCR算法自动检测,右侧列表有每个框对应的文字内容: 点击右侧"识别结果"中的文本记录,然后点击"复制到剪贴板"即可复制该

基于Python制作图像完美超分处理工具

目录

前言

安装

使用

图片超分

视频超分

项目说明

代码说明

总结

相关推荐

随机推荐