AVFace: 面向详细的音频视觉 4D 人脸重建

Apr, 2023

AVFace: 面向详细的音频视觉 4D 人脸重建

AVFace: Towards Detailed Audio-Visual 4D Face Reconstruction

Aggelina Chatziagapi, Dimitris Samaras

TL;DR该研究提出了一种基于多模态的方法来实现从单目视频中进行 4D 人脸重建，并使用 AVFace 技术准确地重构任何人的面部和唇部运动，而无需任何 3D 地面真实测试。

Abstract

In this work, we present a multimodal solution to the problem of 4D face reconstruction from monocular videos. 3D face reconstruction from 2D images is an under-constrained problem due to the ambiguity of depth. State-of-the-art methods try to solve this problem by leveraging visual in

4d face reconstruction multimodal solution avface video processing facial and lip motion

发现论文，激发创造

从视频中感知语音的视觉三维面部表情重建

本文介绍了一种基于视觉的、口型感知的三维口部表情重建方法，该方法不需要任何文本转录或对应音频，并使用 “lipread” 损失来指导拟合过程，以使三维重建的头部运动与原始视频片段的感知相似。此外，通过三个大规模数据集的详尽客观评估和两个基于网络的用户研究的主观评估，我们证明了该方法的有效性。

Jul, 2022

基於實境影像的音頻驅動 3D 臉部動畫

本文提出了一种基于 2D 口型视频和 3D 面部重构方法训练的 3D 面部动画模型，该模型具有良好的泛化能力和包括口型同步在内的高保真度，能够捕捉不同个体的讲话风格并输出个性化的 3D 说话头像，经实验证明其优越性。

Jun, 2023

从视频中学习人脸模型

利用多帧视频自我监督训练深度网络，学习面部身份模型并同时重建 3D 面部，采用新的多帧一致性损失函数使得 consistent shape 和 appearance 尽量减小深度不确定性，从而实现单目和多帧重建。

Dec, 2018

360° 体感肖像化头像

基于单目视频输入，本研究提出了一种名为 360° 体积肖像（3VP）头像的新方法，该方法用于重建 360° 全景真实头像，以模板为基础跟踪躯干、头部和面部表情，训练基于神经辐射场的神经体积表示，解决了外观变化模型中特别是嘴唇和牙齿区域的挑战，评估了实际采集的数据并与最先进的单目重建方法进行了比较。

Dec, 2023

多功能人脸动画师：在 RGBD 空间中驱动任意的 3D 人脸形象

提出了一种新颖的自监督框架，名为 Versatile Face Animator，它将面部动作捕捉与动作重新定位结合起来，从而实现了在任意 3D 角色上进行面部动画的理想效果，并具备潜在的成本效益和高效率的潜力。

Aug, 2023

3D 说话风格的捕捉、学习和综合

我们介绍了一个独特的 4D 人脸数据集，使用它训练的神经网络 VOCA 可以根据语音信号实现逼真的人脸动画，可被用于游戏视频、虚拟现实头像等多种领域。

May, 2019

从图像和视频中学习完整的三维可塑性人脸模型

本研究提出了一种基于自监督学习的方法，通过图像和视频数据学习脸部特征的完整 3D 模型，实现了环境无关的单目重建，并训练出能够更好地推广和提高图像重建质量的表情基础等方面的面部模型。

Oct, 2020

3DiFACE：基于扩散的语音驱动 3D 面部动画和编辑

我们提出的 3DiFACE 方法是一种用于个性化语音驱动的 3D 面部动画和编辑的新方法。通过引入一种轻量级的音频条件扩散模型，我们能够在保持表现力丰富的唇部运动输出的同时，允许随机性和动作编辑。经过定量和定性评估，我们展示了我们的方法优于现有的技术，并产生更具保真度和多样性的语音驱动动画。

Dec, 2023

基于 3D 卷积神经网络的跨模态音视频匹配识别

本文提出了一种利用耦合三维卷积神经网络架构来映射音频和视频流到统一表示空间，从而有效地找到不同模态之间时间信息的关联性的 AVR 方法，并且相对于现有的采用 3D CNN 特征表示的视听匹配方法，使用较小的网络架构和数据集进行训练，我们的方法显著提高了性能，相比于最先进的方法 Equal Error Rate（EER）的相对改进超过 20% ，而平均准确度（AP）的相对改进超过 7%。

Jun, 2017

AVFF：音视特征融合用于视频深度伪造检测

通过跨模态学习方法的视听特征融合，我们提出了一种用于改进深假检测的两阶段方法，可以明确地捕捉音频和视觉模态之间的对应关系，并在真实和伪造视频上进行监督学习，取得了 98.6% 的准确率和 99.1% 的 AUC，相较于当前的音视混合最先进技术，准确率和 AUC 分别提高了 14.9% 和 9.9%。

Jun, 2024