自适应超分辨率用于一次性说话头生成

Mar, 2024

自适应超分辨率用于一次性说话头生成

Adaptive Super Resolution For One-Shot Talking-Head Generation

Luchuan Song, Pinxin Liu, Guojun Yin, Chenliang Xu

TL;DR提出了一种自适应的高质量说话头视频生成方法，通过降采样源图像并利用编码解码模块自适应重构高频细节，以提高合成视频的清晰度。

Abstract

The one-shot talking-head generation learns to synthesize a talking-head video with one source portrait image under the driving of same or different identity video. Usually these methods require plane-based pixel transformations via Jacobin matrices or facial image warps for novel pose

talking-head generation video synthesis adaptive high-quality generation super-resolution methods encoder-decoder module

发现论文，激发创造

高保真自由可控的说话头部视频生成

本文提出了一种新模型，通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模，并引入了新的运动感知多尺度特征对齐模块来进行视频合成，从而实现了对头部姿态和表情的自由控制，并且得到了最优质的合成音频视频输出。

Apr, 2023

具有语义感知先验的可控一次性人脸视频合成

使用人脸先验信息的新方法，通过对源面部解析并对其几何形状进行正则化，可以在可接受的带宽下生成带有改善的语义一致性和表情保持的面部视频，并实现高度可控的姿态和表情生成。

Apr, 2023

MetaPortrait：具备快速个性化调整能力的保持身份的说话人头像生成

本文提出了一个基于 ID 保持的讲话头生成框架，改进了以往的方法，使用密集地标点实现精确的几何感知流场与自适应融合源身份，使用元学习方法实现快速个性化模型的快速适应，并且增加时空增强模块以提高细节和时序性，实验表明本文的方法在单次和个性化设置中均显著优于现有技术。

Dec, 2022

视频会议用单镜头自由视角神经对话人头合成

提出了一种新颖的神经网络生成模型，采用关键点作为运动信息的表征形式，从而实现了面部图像的生成，降低了视频会议的带宽要求。

Nov, 2020

利用预训练图像生成器从语音音频中生成 Talking Head

本文提出了一种基于卷积神经网络模型和预先训练的 StyleGAN 生成器的新方法，用于从语音音频和单个 ' 身份 ' 图像生成高分辨率的说话者视频。模型首先使用一个现有的编码器将每个视频帧映射到潜在空间中，然后从语音语句到图像生成器的潜在空间中的位移映射。最终，评估结果表明本文方法在标准指标上优于最新的先进方法，并在另一个常用数据集上获得可比较的性能。

Sep, 2022

StyleHEAT：使用预训练的 StyleGAN 一次性生成高分辨率可编辑的说话人脸

本文提出了一种基于预训练 StyleGAN 的统一框架，实现高分辨率视频生成、驱动视频或音频的解耦控制和灵活的面部编辑，通过视频生成模块和音频生成模块预测动作来进行视觉动画，并通过校准网络和领域损失来补偿转换失真，并且允许两种类型的面部编辑，在控制性、灵活性和可编辑性方面表现优于现有技术。

Mar, 2022

鲁棒单张音频到视频生成

本研究提出了一种名为 OneShotA2V 的新方法，该方法利用具有表现性面部组件的运动的课程学习，仅使用一个听觉信号和一个未见过的个人图像，生成任意长度的交谈人视频，实验评估表明该方法在多个量化指标上表现优越。

Dec, 2020

Few-shot 谈话头部合成的学习空间表示

研究提出了一种新颖的少样本说话人合成方法，通过解耦表示方法取得了显著的实验结果改善。

Apr, 2021

Real3D-Portrait: 一次合成逼真的 3D 语音肖像

Real3D-Potrait 是一种框架，通过使用大型图像到平面模型和高效的运动适配器，从而改进了一次性 3D 重建的能力，实现了精确的运动条件动画，并利用头 - 躯干 - 背景超分辨率模型生成具有自然躯干运动和可切换背景的逼真视频，同时支持一次性以音频驱动的说话脸生成。与以前的方法相比，广泛的实验证明 Real3D-Portrait 对于未见过的身份具有很好的泛化能力，并生成更逼真的说话肖像视频。

Jan, 2024

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020