利用预训练图像生成器从语音音频中生成 Talking Head

Sep, 2022

利用预训练图像生成器从语音音频中生成 Talking Head

Talking Head from Speech Audio using a Pre-trained Image Generator

Mohammed M. Alghamdi, He Wang, Andrew J. Bulpitt, David C. Hogg

TL;DR本文提出了一种基于卷积神经网络模型和预先训练的 StyleGAN 生成器的新方法，用于从语音音频和单个 ' 身份 ' 图像生成高分辨率的说话者视频。模型首先使用一个现有的编码器将每个视频帧映射到潜在空间中，然后从语音语句到图像生成器的潜在空间中的位移映射。最终，评估结果表明本文方法在标准指标上优于最新的先进方法，并在另一个常用数据集上获得可比较的性能。

Abstract

We propose a novel method for generating high-resolution videos of talking-heads from speech audio and a single 'identity' image. Our method is based on a convolutional neural network model that incorporates a pr

high-resolution video talking-heads convolutional neural network stylegan generator recurrent neural network

发现论文，激发创造

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

StyleHEAT：使用预训练的 StyleGAN 一次性生成高分辨率可编辑的说话人脸

本文提出了一种基于预训练 StyleGAN 的统一框架，实现高分辨率视频生成、驱动视频或音频的解耦控制和灵活的面部编辑，通过视频生成模块和音频生成模块预测动作来进行视觉动画，并通过校准网络和领域损失来补偿转换失真，并且允许两种类型的面部编辑，在控制性、灵活性和可编辑性方面表现优于现有技术。

Mar, 2022

高保真自由可控的说话头部视频生成

本文提出了一种新模型，通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模，并引入了新的运动感知多尺度特征对齐模块来进行视频合成，从而实现了对头部姿态和表情的自由控制，并且得到了最优质的合成音频视频输出。

Apr, 2023

Audio2Head：基于音频的单次对话生成，自然的头部运动

本文提出一种基于音频驱动的头像动画方法，该方法同时解决了面部动画和头部运动的问题，并且采用了神经网络来预测和生成头部和面部的动画以及背景的动作。通过关键点密集的运动场表示，本方法产生的头像动画具有很好的空间和时间连续性，并且性能优于现有技术。

Jul, 2021

自适应超分辨率用于一次性说话头生成

提出了一种自适应的高质量说话头视频生成方法，通过降采样源图像并利用编码解码模块自适应重构高频细节，以提高合成视频的清晰度。

Mar, 2024

StyleTalk：可控话语风格的单镜头说话人生成

提出了一种一次性风格可控的说话人脸生成框架，可以从任意参考说话视频中获得一种说话风格，并将一次性画像驱动为使用参考说话风格和其他音频进行说话。

Jan, 2023

Few-shot 谈话头部合成的学习空间表示

研究提出了一种新颖的少样本说话人合成方法，通过解耦表示方法取得了显著的实验结果改善。

Apr, 2021

视频会议用单镜头自由视角神经对话人头合成

提出了一种新颖的神经网络生成模型，采用关键点作为运动信息的表征形式，从而实现了面部图像的生成，降低了视频会议的带宽要求。

Nov, 2020

MakeItTalk: 面向发言人的说话人头动画

本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法，并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像，并通过定量和定性方法的评估以及用户研究，证明其比现有技术的生成头像的质量显着更高。

Apr, 2020

实时逼真的说话人头部动画

本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统，包括从音频信号中提取深度音频特征，分析面部动态和姿态，并在最终的阶段生成逼真的面部细节。

Sep, 2021