具有语义感知先验的可控一次性人脸视频合成

Apr, 2023

具有语义感知先验的可控一次性人脸视频合成

Controllable One-Shot Face Video Synthesis With Semantic Aware Prior

Kangning Liu, Yu-Chuan Su, Hong, Ruijin Cang, Xuhui Jia

TL;DR使用人脸先验信息的新方法，通过对源面部解析并对其几何形状进行正则化，可以在可接受的带宽下生成带有改善的语义一致性和表情保持的面部视频，并实现高度可控的姿态和表情生成。

Abstract

The one-shot talking-head synthesis task aims to animate a source image to another pose and expression, which is dictated by a driving frame. Recent methods rely on warping the appearance feature extracted from the source, by using motion fields estimated from the sparse keypoints, tha

one-shot talking-head synthesis pose and expression animation face prior information semantic consistency expression preservation

发现论文，激发创造

视频会议用单镜头自由视角神经对话人头合成

提出了一种新颖的神经网络生成模型，采用关键点作为运动信息的表征形式，从而实现了面部图像的生成，降低了视频会议的带宽要求。

Nov, 2020

高保真自由可控的说话头部视频生成

本文提出了一种新模型，通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模，并引入了新的运动感知多尺度特征对齐模块来进行视频合成，从而实现了对头部姿态和表情的自由控制，并且得到了最优质的合成音频视频输出。

Apr, 2023

自适应超分辨率用于一次性说话头生成

提出了一种自适应的高质量说话头视频生成方法，通过降采样源图像并利用编码解码模块自适应重构高频细节，以提高合成视频的清晰度。

Mar, 2024

Few-shot 谈话头部合成的学习空间表示

研究提出了一种新颖的少样本说话人合成方法，通过解耦表示方法取得了显著的实验结果改善。

Apr, 2021

3D 感知的讲话头部视频动作转移

本研究提出了一种新颖的 3D 感知说话人视频动作迁移网络 Head3D，通过生成可视化可解释的 3D 标准头部，从 2D 主体帧中充分利用主体外貌信息，以适应驱动视频帧对齐。我们的方法的一个关键组成部分是自我监督的 3D 头部几何学习模块，能够从 2D 主体视频帧预测头部姿势和深度图。此外，我们还采用基于注意力的融合网络，将主体帧的背景和其他细节与 3D 主体头部相结合，生成合成目标视频。我们在两个公共说话人视频数据集上进行了广泛实验，结果表明 Head3D 在实际的跨身份设置中优于 2D 和 3D 先前方法，有证据显示它能够轻松适应受控姿态的新视图合成任务。

Nov, 2023

隐式模块化音视表示的姿态可控说话面孔生成

本文提出了一种简洁而有效的框架来生成姿势可控的对话脸，通过使用隐式低维姿势代码对原始面部图像进行操作，实现语音和头部姿势信息的联合非身份嵌入空间，通过调制卷积重建框架，在极端视角稳健的情况下生成准确的唇形同步会话，并具有多种先进功能，例如对话面部前视。

Apr, 2021

全控制对话人脸生成

论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间，提出正交性约束来分离身份和运动，从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明，我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部，头部姿势和眼动等所有目标面部运动的谈话面孔生成框架，没有超越 RGB 视频与音频的任何附加监督。

Apr, 2023

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

Head2Head: 视频基于神经元头部综合

本文提出了一种新的面部再现的机器学习架构，该方法利用卷积神经网络进行特征提取及实现面部运动，注重嘴部及时间一致性，实现了将源角色的面部表情、姿势和视线传输到目标视频中，比现有技术更精确地展现了真实人像。

May, 2020

HeadGAN：一次性神经头部合成和编辑

本文提出了一种基于 3D 面部表示的 HeadGAN 新系统，可以从任何驱动视频中提取，并适应于任何参考图像的面部几何形状，从而解决头部再现问题。通过利用音频特征作为补充输入，进一步改善嘴部运动，并将身份与表情分离，使其具有压缩和重建、表情和姿势编辑的功能。

Dec, 2020