从视频中感知语音的视觉三维面部表情重建

Jul, 2022

从视频中感知语音的视觉三维面部表情重建

Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from Videos

Panagiotis P. Filntisis, George Retsinas, Foivos Paraperas-Papantoniou, Athanasios Katsamanis, Anastasios Roussos...

TL;DR本文介绍了一种基于视觉的、口型感知的三维口部表情重建方法，该方法不需要任何文本转录或对应音频，并使用 “lipread” 损失来指导拟合过程，以使三维重建的头部运动与原始视频片段的感知相似。此外，通过三个大规模数据集的详尽客观评估和两个基于网络的用户研究的主观评估，我们证明了该方法的有效性。

Abstract

The recent state of the art on monocular 3d face reconstruction from image data has made some impressive advancements, thanks to the advent of Deep Learning. However, it has mostly focused on input coming from a single RGB image, overlooking the following important factors: a) Nowadays

monocular 3d face reconstruction visual speech-aware reconstruction lipread loss unlabeled datasets video-based reconstruction

发现论文，激发创造

AVFace: 面向详细的音频视觉 4D 人脸重建

该研究提出了一种基于多模态的方法来实现从单目视频中进行 4D 人脸重建，并使用 AVFace 技术准确地重构任何人的面部和唇部运动，而无需任何 3D 地面真实测试。

Apr, 2023

从视频中学习人脸模型

利用多帧视频自我监督训练深度网络，学习面部身份模型并同时重建 3D 面部，采用新的多帧一致性损失函数使得 consistent shape 和 appearance 尽量减小深度不确定性，从而实现单目和多帧重建。

Dec, 2018

基於實境影像的音頻驅動 3D 臉部動畫

本文提出了一种基于 2D 口型视频和 3D 面部重构方法训练的 3D 面部动画模型，该模型具有良好的泛化能力和包括口型同步在内的高保真度，能够捕捉不同个体的讲话风格并输出个性化的 3D 说话头像，经实验证明其优越性。

Jun, 2023

LipSync3D：使用姿态和光照规范化从视频中高效学习个性化的三维说话脸

本文提出了一种基于视频学习的框架，用于从音频中制作个性化的 3D 说话人脸，其中使用面部标准化和自回归方法来提高样本效率并生成高保真的口型同步视频。

Jun, 2021

从图像和视频中学习完整的三维可塑性人脸模型

本研究提出了一种基于自监督学习的方法，通过图像和视频数据学习脸部特征的完整 3D 模型，实现了环境无关的单目重建，并训练出能够更好地推广和提高图像重建质量的表情基础等方面的面部模型。

Oct, 2020

从 “野外” 语音合成三维面部动作

本文采用新的时域扭曲技术 Deep Canonical Attentional Warping (DCAW) 实现了从任意语音录音中综合 3D 面部运动，并经过了充分的评估，可以成功地在处理不同的演讲者和不受控制的语音信号时，合成连续的 3D 面部运动。

Apr, 2019

情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

通过自我监督学习，我们提出了一个两阶段的音频驱动对话人物生成框架，利用 3D 面部特征点作为中间变量，以实现表情、注视和头部姿势的合作对齐，并映射到预训练模型中以生成高质量人脸图像。

Jun, 2024

Learn2Talk: 3D 口型学习 2D 口型

提出了一种名为 Learn2Talk 的学习框架，该框架可以通过利用 2D 说话面领域的两个专业点来构建更好的 3D 说话面网络，主要关注嘴唇同步、语音感知、音频 - 3D 动作回归网络等方面的研究。

Apr, 2024

音频驱动的情感视频肖像

本文提出一种称为情感视频肖像 (EVP) 的系统，通过 Cross-Reconstructed Emotion Disentanglement 技术来将语音分解为情感和内容空间并提取二维情感面部特征，然后通过 Target-Adaptive Face Synthesis 技术来生成高质量的情感动态视频人像，该方法在定性和定量实验中均表现出良好的效果。

Apr, 2021

增强式说话人脸视频生成与评估的音频视觉语音表示专家

使用 AV-HuBERT 进行口型同步损失的计算，并引入三种新的口型同步评估指标，以提供全面的口型同步性能评估。实验结果和详细的消融研究表明了我们方法的有效性和提出的评估指标的实用性。

May, 2024