Python first-order-model实现让照片动起来

2025-04-03 09:08:30

前言

看到一个很有意思的项目，其实在之前就在百度飞浆等平台上看到类似的实现效果。

可以将照片按照视频的表情，动起来。看一下项目给出的效果。

项目地址：first-order-model项目地址

还是老样子，不管作者给出的种种效果，自己测试一下。

资源下载和安装

我们先看一下README关于项目的基本信息，可以看出除了表情驱动照片，还可以姿态迁移。

模型文件提供了线上的下载地址。

文件很大而且难下，我下好了放到我的云盘上，可以从下面云盘下载。

链接提取码：ikix

模型文件放到根目录下新建的checkpoint文件夹下。

将requirements.txt中的依赖安装一下。

安装补充

在测试README中的命令的时候，如果出现一下报错。

Traceback (most recent call last):
File "demo.py", line 17, in <module>
from animate import normalize_kp
File "D:\spyder\first-order-model\animate.py", line 7, in <module>
from frames_dataset import PairedDataset
File "D:\spyder\first-order-model\frames_dataset.py", line 10, in <module>
from augmentation import AllAugmentationTransform
File "D:\spyder\first-order-model\augmentation.py", line 13, in <module>
import torchvision
File "C:\Users\huyi\.conda\envs\fom\lib\site-packages\torchvision\__init__.py", line 2, in <module>
from torchvision import datasets
File "C:\Users\huyi\.conda\envs\fom\lib\site-packages\torchvision\datasets\__init__.py", line 9, in <module>
from .fakedata import FakeData
File "C:\Users\huyi\.conda\envs\fom\lib\site-packages\torchvision\datasets\fakedata.py", line 3, in <module>
from .. import transforms
File "C:\Users\huyi\.conda\envs\fom\lib\site-packages\torchvision\transforms\__init__.py", line 1, in <module>
from .transforms import *
File "C:\Users\huyi\.conda\envs\fom\lib\site-packages\torchvision\transforms\transforms.py", line 16, in <module>
from . import functional as F
File "C:\Users\huyi\.conda\envs\fom\lib\site-packages\torchvision\transforms\functional.py", line 5, in <module>
from PIL import Image, ImageOps, ImageEnhance, PILLOW_VERSION
ImportError: cannot import name 'PILLOW_VERSION' from 'PIL' (C:\Users\huyi\.conda\envs\fom\lib\site-packages\PIL\__init__.py)

这个问题主要是我使用的pillow版本过高的原因，如果不想找对应的低版本，可以按照我的方式解决。

1、修改functional.py代码，将PILLOW_VERSION调整为__version__。

2、将imageio升级。

pip install --upgrade imageio -i https://pypi.douban.com/simple

3、安装imageio_ffmpeg模块。

pip install imageio-ffmpeg -i https://pypi.douban.com/simple

工具代码验证

官方给出的使用方法我就不重复测试，大家可以按照下面的命令去测试一下。

这里我推荐一个可视化的库gradio，下面我将demo.py的代码改造了一下。

新的工具文件代码如下：

#!/user/bin/env python
# coding=utf-8
"""
@project : first-order-model
@author  : 剑客阿良_ALiang
@file   : hy_gradio.py
@ide    : PyCharm
@time   : 2022-06-23 14:35:28
"""
import uuid
from typing import Optional

import gradio as gr
import matplotlib

matplotlib.use('Agg')
import os, sys
import yaml
from argparse import ArgumentParser
from tqdm import tqdm

import imageio
import numpy as np
from skimage.transform import resize
from skimage import img_as_ubyte
import torch
from sync_batchnorm import DataParallelWithCallback

from modules.generator import OcclusionAwareGenerator
from modules.keypoint_detector import KPDetector
from animate import normalize_kp
from scipy.spatial import ConvexHull

if sys.version_info[0] < 3:
    raise Exception("You must use Python 3 or higher. Recommended version is Python 3.7")

def load_checkpoints(config_path, checkpoint_path, cpu=False):
    with open(config_path) as f:
        config = yaml.load(f)

    generator = OcclusionAwareGenerator(**config['model_params']['generator_params'],
                                        **config['model_params']['common_params'])
    if not cpu:
        generator.cuda()

    kp_detector = KPDetector(**config['model_params']['kp_detector_params'],
                             **config['model_params']['common_params'])
    if not cpu:
        kp_detector.cuda()

    if cpu:
        checkpoint = torch.load(checkpoint_path, map_location=torch.device('cpu'))
    else:
        checkpoint = torch.load(checkpoint_path)

    generator.load_state_dict(checkpoint['generator'])
    kp_detector.load_state_dict(checkpoint['kp_detector'])

    if not cpu:
        generator = DataParallelWithCallback(generator)
        kp_detector = DataParallelWithCallback(kp_detector)

    generator.eval()
    kp_detector.eval()

    return generator, kp_detector

def make_animation(source_image, driving_video, generator, kp_detector, relative=True, adapt_movement_scale=True,
                   cpu=False):
    with torch.no_grad():
        predictions = []
        source = torch.tensor(source_image[np.newaxis].astype(np.float32)).permute(0, 3, 1, 2)
        if not cpu:
            source = source.cuda()
        driving = torch.tensor(np.array(driving_video)[np.newaxis].astype(np.float32)).permute(0, 4, 1, 2, 3)
        kp_source = kp_detector(source)
        kp_driving_initial = kp_detector(driving[:, :, 0])

        for frame_idx in tqdm(range(driving.shape[2])):
            driving_frame = driving[:, :, frame_idx]
            if not cpu:
                driving_frame = driving_frame.cuda()
            kp_driving = kp_detector(driving_frame)
            kp_norm = normalize_kp(kp_source=kp_source, kp_driving=kp_driving,
                                   kp_driving_initial=kp_driving_initial, use_relative_movement=relative,
                                   use_relative_jacobian=relative, adapt_movement_scale=adapt_movement_scale)
            out = generator(source, kp_source=kp_source, kp_driving=kp_norm)

            predictions.append(np.transpose(out['prediction'].data.cpu().numpy(), [0, 2, 3, 1])[0])
    return predictions

def find_best_frame(source, driving, cpu=False):
    import face_alignment

    def normalize_kp(kp):
        kp = kp - kp.mean(axis=0, keepdims=True)
        area = ConvexHull(kp[:, :2]).volume
        area = np.sqrt(area)
        kp[:, :2] = kp[:, :2] / area
        return kp

    fa = face_alignment.FaceAlignment(face_alignment.LandmarksType._2D, flip_input=True,
                                      device='cpu' if cpu else 'cuda')
    kp_source = fa.get_landmarks(255 * source)[0]
    kp_source = normalize_kp(kp_source)
    norm = float('inf')
    frame_num = 0
    for i, image in tqdm(enumerate(driving)):
        kp_driving = fa.get_landmarks(255 * image)[0]
        kp_driving = normalize_kp(kp_driving)
        new_norm = (np.abs(kp_source - kp_driving) ** 2).sum()
        if new_norm < norm:
            norm = new_norm
            frame_num = i
    return frame_num

def h_interface(input_image: str):
    parser = ArgumentParser()
    opt = parser.parse_args()
    opt.config = "./config/vox-256.yaml"
    opt.checkpoint = "./checkpoint/vox-cpk.pth.tar"
    opt.source_image = input_image
    opt.driving_video = "./data/input/ts.mp4"
    opt.result_video = "./data/result/{}.mp4".format(uuid.uuid1().hex)
    opt.relative = True
    opt.adapt_scale = True
    opt.cpu = True
    opt.find_best_frame = False
    opt.best_frame = False
    # source_image = imageio.imread(opt.source_image)
    source_image = opt.source_image
    reader = imageio.get_reader(opt.driving_video)
    fps = reader.get_meta_data()['fps']
    driving_video = []
    try:
        for im in reader:
            driving_video.append(im)
    except RuntimeError:
        pass
    reader.close()

    source_image = resize(source_image, (256, 256))[..., :3]
    driving_video = [resize(frame, (256, 256))[..., :3] for frame in driving_video]
    generator, kp_detector = load_checkpoints(config_path=opt.config, checkpoint_path=opt.checkpoint, cpu=opt.cpu)

    if opt.find_best_frame or opt.best_frame is not None:
        i = opt.best_frame if opt.best_frame is not None else find_best_frame(source_image, driving_video, cpu=opt.cpu)
        print("Best frame: " + str(i))
        driving_forward = driving_video[i:]
        driving_backward = driving_video[:(i + 1)][::-1]
        predictions_forward = make_animation(source_image, driving_forward, generator, kp_detector,
                                             relative=opt.relative, adapt_movement_scale=opt.adapt_scale, cpu=opt.cpu)
        predictions_backward = make_animation(source_image, driving_backward, generator, kp_detector,
                                              relative=opt.relative, adapt_movement_scale=opt.adapt_scale, cpu=opt.cpu)
        predictions = predictions_backward[::-1] + predictions_forward[1:]
    else:
        predictions = make_animation(source_image, driving_video, generator, kp_detector, relative=opt.relative,
                                     adapt_movement_scale=opt.adapt_scale, cpu=opt.cpu)
    imageio.mimsave(opt.result_video, [img_as_ubyte(frame) for frame in predictions], fps=fps)
    return opt.result_video

if __name__ == "__main__":
    demo = gr.Interface(h_interface, inputs=[gr.Image(shape=(500, 500))], outputs=[gr.Video()])

    demo.launch()
    # h_interface("C:\\Users\\huyi\\Desktop\\xx3.jpg")

代码说明

1、将原demo.py中的main函数内容，重新编辑为h_interface方法，输入是想要驱动的图片。

2、其中driving_video参数使用了我自己录制的一段表情视频ts.mp4，我建议在使用的时候可以自己用手机录制一段替换。

3、使用gradio来生成方法的页面，下面会展示给大家看。

4、使用uuid为结果视频命名。

执行结果如下

Running on local URL: http://127.0.0.1:7860/
To create a public link, set `share=True` in `launch()`.

打开本地的地址：http://localhost:7860/

可以看到我们实现的交互界面如下：

我们上传一下我准备的样例图片，提交制作。

看一下执行的日志，如下图。

看一下制作结果。

由于上传不了视频，我将视频转成了gif。

还是蛮有意思的，具体的参数调优我就不弄了，大家可能根据需要调整我提供的方法里面的参数。

以上就是Python first-order-model实现让照片动起来的详细内容，更多关于Python 照片动起来的资料请关注我们其它相关文章！

Python PaddleGAN实现照片人物性别反转

前言接着我的上篇文章:Python PaddleGAN实现调整照片人物年龄在上面的文章中,我们发现styleganv2editing.py是支持性别编辑的.所以调整了一下参数,来试着实现一下照片的性别翻转.下面我们开始吧环境搭建这部分就直接参考上面的文章吧,就不再写一遍了.先发一下我准备的照片,如下: 实现过程下面我们一步步操作一下,首先我们要做个预处理,和上一篇文章中一样. 预处理执行命令 python -u applications/tools/pixel2style2pixel
Python PaddleGAN实现调整照片人物年龄

目录前言环境部署项目使用预处理部分照片老化处理照片年轻化处理总结前言最近在试着研究飞浆平台的许多功能,看到了许多有意思的功能.其中可以将照片美化以及年龄调整这个功能让我想到了之前抖音的一个功能,所以特别感兴趣.花了些时间把项目拉下来玩了玩,用了一些我自己找的数据. PaddleGAN的Github地址:github仓库环境部署如果没有看过相关的文章,可能会被README搞得很迷糊.先不用看README中一个个教程或者md,我们要先安装执行环境.主要看docs/zh_CN/i
Python+AI实现给老照片上色

目录 1. 准备工作 2. 编写代码哈喽,大家好. 今天继续给大家分享有趣的 AI 项目. 上次我们分享了用GAN(生成对抗网络)让静态图片动起来. 今天我们分享用NoGAN的图像增强技术给老照片着色.效果如下: 原图上色后 NoGAN是一种新型GAN,它能花费最少的时间进行GAN训练. 今天分享的这个项目已在GitHub开源项目,下面我们来运行一下. 1. 准备工作首先,用git clone命令下载源码 git clone https://github.com/jantic/DeOldi
Python实现照片卡通化

目录前言环境部署项目使用景色类图像使用人像类图像使用总结前言之前看到一个有意思的开源项目,主要是可以将一张照片变成卡通漫画的风格.下面给大家放几张官方给出的部分效果图. 看到这个效果图,还是非常经验的.下面我会分享一下这个项目,并且选择一些我自己找的图片试验一下. 项目Github地址:github地址环境部署先使用git将项目下载下来.看一下项目结构. 我们看一下需要的环境. 非常简单,只要pytorch就可以了.如果有不太会安装的,可以参考:机器学习基础环境部署项目
Python+DeOldify实现老照片上色功能

目录前言安装代码改造使用前言老照片上色其实很早之前就想写了,也有不少人问了我这个项目. 最近把DeOldify项目好好弄了弄. 项目地址:DeOldify项目地址先看看项目给出的图片对比效果. 从给出的效果可以看出,上色后的图片对人物.景色.物品.环境等等都变得很生动. 下面来安装一下项目执行环境,测试一下自己的图片. 安装看一下项目的README中关于安装的部分. 使用anaconda安装环境.安装完成后看一下模型文件需要下载哪些. 仔细看看,文章给出了不同模型的区别. 从作者的
Python first-order-model实现让照片动起来

目录前言资源下载和安装安装补充工具代码验证前言看到一个很有意思的项目,其实在之前就在百度飞浆等平台上看到类似的实现效果. 可以将照片按照视频的表情,动起来.看一下项目给出的效果. 项目地址:first-order-model项目地址还是老样子,不管作者给出的种种效果,自己测试一下. 资源下载和安装我们先看一下README关于项目的基本信息,可以看出除了表情驱动照片,还可以姿态迁移. 模型文件提供了线上的下载地址. 文件很大而且难下,我下好了放到我的云盘上,可以从下面云盘下载. 链
利用Python实现一键将头像转成动漫风

目录 PyQt5框架代码逻辑最近在Github上面有看到将头像转化成动漫风的项目,但是对于不少没有技术背景的同学来说可能就不知道该怎么使用了,小编今天制作了一个UI界面,大家可以通过一键点击就实现头像照片转化成动漫风格的功能. PyQt5框架用Python编程语言来制作UI界面的框架有很多哈,大家原则上哪种框架用的顺手就用哪种框架,小编这里使用的是PyQt的框架,因为它支持手动绘制控件,并且可以动态加载,我们在Pycharm当中添加上QtDesigner作为外部工具,来进行界面设置,生成u
Python实现word2Vec model过程解析

这篇文章主要介绍了Python实现word2Vec model过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 import gensim, logging, os logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) import nltk corpus = nltk.corpus.brown.sents()
Python爬虫之爬取淘女郎照片示例详解

本篇目标抓取淘宝MM的姓名,头像,年龄抓取每一个MM的资料简介以及写真图片把每一个MM的写真图片按照文件夹保存到本地熟悉文件保存的过程 1.URL的格式在这里我们用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1,问号前面是基地址,后面的参数page是代表第几页,可以随意更换地址.点击开之后,会发现有一些淘宝MM的简介,并附有超链接链接到个人详情页面. 我们需要抓取本页面的头像地址,MM姓名,MM年龄,MM居住地,
如何用Python中19行代码把照片写入到Excel中

目录 1.前言 2.代码实战 2.1思路 2.2文件准备 2.3实战 2.4色值转换 2.5图片转换 2.6代码整合 2.7运行结果 3.总结 1.前言这里说的,不是截取一张图片,粘贴到excel:而是通过像素写入到excel中,下面来看看具体的实现过程吧 2.代码实战 2.1 思路我们今天要分享的,是把图片写入到excel中, 我们来捋一下思路: 准备源图片,目标excel: 通过Pillow 来读图片的取像素(RGB): 通过openpyxl 向excel cell内填充十六进制色值:
利用python爬取斗鱼app中照片方法实例

前言没想到python是如此强大,令人着迷,以前看见图片总是一张一张复制粘贴,现在好了,学会python就可以用程序将一张张图片,保存下来. 最近看到斗鱼里的照片都不错,决定用最新学习的python技术进行爬取,下面将实现的过程分享出来供大家参考,下面话不多说了,来一起看看详细的介绍吧. 方法如下: 首先下载一个斗鱼(不下载也可以,url都在这了对吧) 通过抓包,抓取到一个json的数据包,得到下面的地址观察测试可知,通过修改offset值就是相当于app的翻页访问这个url,返回得到的是
python自动生成model文件过程详解

生成方式 Python中想要自动生成 model文件可以通过 sqlacodegen这个命令来生成对应的model文件 sqlacodegen 你可以通过pip去安装: pip install sqlacodegen 格式: sqlacodegen mysql+pymysql://username:password@host/database_name > model.py 说明: mysql+pymysql : 表示连接数据库的连接方式 username : 连接MySQL数据库的用户名 pa
Python DPED机器学习之实现照片美化

目录前言环境部署项目结构 tensorflow安装其他依赖安装 VGG-19下载项目运行准备图片素材测试效果前言最近发现了一个可以把照片美化的项目,自己玩了玩,挺有意思的,分享一下. Github地址:DPED项目地址下面来看看项目怎么玩?先放一些项目给出的效果图.可以看出照片更明亮好看了. 环境部署项目结构下面是项目的原始结构: tensorflow安装按照项目的说明,我们需要安装tensorflow以及一些必要的库. 如果安装gpu版本的tensorflow需要对照
C++ AnimeGAN实现照片一键动漫化

目录前言环境安装 C++推理运行结果前言 AnimeGAN是来自武汉大学和湖北工业大学的AI项目,是由神经网络风格迁移加生成对抗网络(GAN)而成,它是基于CartoonGAN的改进,并提出了一个更加轻量级的生成器架构.原理和训练代码转Github,Pytorch版本.官方的有放出三个试玩的模型,有两个模型是针对人脸的,有一个是卡通效果,可以用来试试别的图像的,熟悉python和pytorch的直接git下来就可以本地部署了,就可以试玩了. 先看看人像的效果我的demo里面的图像第一张
Python实现将照片变成卡通图片的方法【基于opencv】

本文实例讲述了Python实现将照片变成卡通图片的方法.分享给大家供大家参考,具体如下: 之前的文章介绍了使用Photoshop将照片变成卡通图片,今次介绍用代码来实现这项任务,可以就此探查各种滤镜的内部机制. 制作环境:Windows10,Python2.7,Anaconda 任务描述:将D盘某文件夹中的所有图片使用代码进行卡通化,然后保存到另一文件夹中. 如前文所述,卡通化的关键是强化边缘与减少色彩,所以使用Photoshop进行卡通化的时候就使用了照亮边缘和干笔画的滤镜来处理.使用代码处理

Python first-order-model实现让照片动起来

目录

前言

资源下载和安装

安装补充

工具代码验证

相关推荐

随机推荐