3D 感知的讲话头部视频动作转移

Nov, 2023

3D-Aware Talking-Head Video Motion Transfer

Haomiao Ni, Jiachen Liu, Yuan Xue, Sharon X. Huang

TL;DR本研究提出了一种新颖的 3D 感知说话人视频动作迁移网络 Head3D，通过生成可视化可解释的 3D 标准头部，从 2D 主体帧中充分利用主体外貌信息，以适应驱动视频帧对齐。我们的方法的一个关键组成部分是自我监督的 3D 头部几何学习模块，能够从 2D 主体视频帧预测头部姿势和深度图。此外，我们还采用基于注意力的融合网络，将主体帧的背景和其他细节与 3D 主体头部相结合，生成合成目标视频。我们在两个公共说话人视频数据集上进行了广泛实验，结果表明 Head3D 在实际的跨身份设置中优于 2D 和 3D 先前方法，有证据显示它能够轻松适应受控姿态的新视图合成任务。

Abstract

motion transfer of talking-head videos involves generating a new video with the appearance of a subject video and the motion pattern of a driving video. Current methodologies primarily depend on a limited number

motion transfer talking-head videos 3d-aware recurrent network pose-controllable

发现论文，激发创造

高保真自由可控的说话头部视频生成

本文提出了一种新模型，通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模，并引入了新的运动感知多尺度特征对齐模块来进行视频合成，从而实现了对头部姿态和表情的自由控制，并且得到了最优质的合成音频视频输出。

Apr, 2023

Audio2Head：基于音频的单次对话生成，自然的头部运动

本文提出一种基于音频驱动的头像动画方法，该方法同时解决了面部动画和头部运动的问题，并且采用了神经网络来预测和生成头部和面部的动画以及背景的动作。通过关键点密集的运动场表示，本方法产生的头像动画具有很好的空间和时间连续性，并且性能优于现有技术。

Jul, 2021

VividTalk：基于 3D 混合先验模型的单次音频驱动说话头生成

提出了一个名为 VividTalk 的两阶段通用框架，用于生成具有高视觉质量的语音驱动的说话人视频，并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。

Dec, 2023

面向说话头部视频生成的深度感知生成对抗网络

本文提出了一种基于深度学习的方法，使用自监督几何学习从人脸视频中自动恢复精细的三维几何结构，并应用于生成高度逼真的人脸视频。

Mar, 2022

带节奏头部动作的虚拟说话人生成

本文提出一种基于 3D-aware 生成网络、混合嵌入和非线性合成模块的方法，通过显式建模头部运动和面部表情，精心处理 3D 动画以及动态嵌入参考图像，实现了可控、逼真、时序连贯的说话者头像视频，并在多个标准基准测试中表现出优异的结果。

Jul, 2020

视频会议用单镜头自由视角神经对话人头合成

提出了一种新颖的神经网络生成模型，采用关键点作为运动信息的表征形式，从而实现了面部图像的生成，降低了视频会议的带宽要求。

Nov, 2020

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

Head2Head: 视频基于神经元头部综合

本文提出了一种新的面部再现的机器学习架构，该方法利用卷积神经网络进行特征提取及实现面部运动，注重嘴部及时间一致性，实现了将源角色的面部表情、姿势和视线传输到目标视频中，比现有技术更精确地展现了真实人像。

May, 2020

SadTalker：学习逼真的 3D 动作系数，用于风格化音频驱动的单张图像口型动画

本文提出了 SadTalker—— 一种生成逼真说话头像视频的方法，通过音频和 3D 运动系数生成 3D 头部姿态和表情，利用 ExpNet 和 PoseVAE 分别进行表情和头部姿态合成，并使用生成的 3D 运动系数合成最终视频，实验结果表明了该方法优于其他方法。

Nov, 2022

Talk3D：个性化 3D 生成先验的高保真说话肖像合成

Talk3D 是一种新的音频驱动的说话头合成框架，通过有效地采用预训练的 3D 感知生成先验模型，可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构，我们的模型预测 NeRF 空间中由音频驱动的动态面部变化，并由与音频无关的调节令牌调制，有效地解耦与音频特征无关的变化。与现有方法相比，我们的方法在生成逼真的面部几何形状方面表现出色，即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。

Mar, 2024