增强式说话人脸视频生成与评估的音频视觉语音表示专家

CVPRMay, 2024

增强式说话人脸视频生成与评估的音频视觉语音表示专家

Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation

Dogucan Yaman, Fevziye Irem Eyiokur, Leonard Bärmann, Seymanur Aktı, Hazım Kemal Ekenel...

TL;DR使用 AV-HuBERT 进行口型同步损失的计算，并引入三种新的口型同步评估指标，以提供全面的口型同步性能评估。实验结果和详细的消融研究表明了我们方法的有效性和提出的评估指标的实用性。

Abstract

In the task of talking face generation, the objective is to generate a face video with lips synchronized to the corresponding audio while preserving visual details and identity information. Current methods face the challenge of learning accurate →

talking face generation lip synchronization visual quality audio-visual speech representation expert lip synchronization evaluation metrics

发现论文，激发创造

由唇语专家引导的交谈面部生成

本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法，并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法，并获得其他方面的收益。

Mar, 2023

SyncTalkFace：通过音 - 唇记忆实现精准嘴唇同步的说话人脸生成

该论文提出了一个名为 Audio-Lip Memory 的技术，使用存储在音频特征中的唇部运动信息来帮助生成与音频最匹配的嘴形，从而使得面部运动与音频之间出现了更加精细的时序一致性，实现了更高质量的谈话面部生成。

Nov, 2022

VideoReTalking: 野外环境中基于音频的人工合成视频嘴型同步技术

VideoReTalking 提供一种新的编辑现实中的人物对话视频的系统来生成高质量的、与输入音频同步的视频，其中包括三个连续的步骤：生成具有规范表情的面部视频、音频驱动的口型同步和面部增强。该系统可以处理所有三个步骤，且不需要任何用户干预，适用于任何人物并可以在大规模数据集上获得最高的潜在精度和视觉质量。

Nov, 2022

AVI-Talking：学习音频 - 视觉指令用于表情丰富的 3D 说话脸生成

利用大型语言模型指导实现具有表情细节合成能力的说话人脸生成系统，通过先理解语音信息并生成指令，再执行这些指令生成具有表情运动的生动说话人脸，实验证明该方法有效且具有一致的情感状态。

Feb, 2024

基于掩码多模态聚类预测的音视频语音表征学习

AV-HuBERT 是自监督学习框架，用于从视频、音频中学习音视双方言的表征，可用于口型阅读和语音识别任务。在 433 小时的公共数据集 LRS3 上，使用 AV-HuBERT 的自我训练，口型阅读错误率降低到 26.9％，使用相同的表征进行语音识别的性能提高了 40％相对减少至 1.3％。

Jan, 2022

通过对抗性解缠音视频表示生成会说话的面部表情

该研究旨在通过学习分解的音频 - 视觉表示来实现任意主题的对话面生成，并证明所学习的音频 - 视觉表示对于自动读唇和音频 - 视频检索任务非常有用。

Jul, 2018

堵塞泄漏：通过防止无意的信息传递推进基于音频的说话人脸生成

利用给定的音频和参考帧生成口型同步、逼真的人脸视频是一项重要任务，其中的关键挑战涉及生成图像的整体视觉质量以及嘴部的音频 - 视频同步。本文首先指出了最近几种音频驱动人脸生成方法中同步方法存在的问题，包括从参考图像到生成图像的唇部和姿势信息的意外流动以及模型训练的不稳定性。随后我们提出了几种技术来解决这些问题：第一，通过无声的唇部参考图像生成器防止唇部信息从参考图像泄露到生成图像；第二，使用自适应三元损失解决姿势信息泄露问题；最后，我们提出了一个稳定的同步损失表达式，解决了训练不稳定性问题，并进一步减轻了唇部信息泄露问题。通过结合这些改进，我们在 LRS2 和 LRW 的音频 - 视觉同步和视觉质量方面表现出最先进的性能。我们还通过各种消融实验证实了我们的设计，确认了各个改进措施的独立贡献以及它们的互补效果。

Jul, 2023

单发音讯视觉相关性学习生成单次语言人脸

本文提出了一种基于 AVCT 的新型一次性说话脸部生成框架，通过从特定说话者的音频和视觉动作中探索一致的相关性，然后将基于密集运动场的音频驱动的运动场转移至参考图像，以生成具有真实嘴部形状和生动运动的视频。

Dec, 2021

通过注意力音视一致性学习实现任意说话人脸生成

本文提出了一种新的任意说话脸生成框架，通过提出的 AMIE 发现音频和视频信息之间的视听一致性，以及通过训练阶段中选择性聚焦输入图像的嘴唇区域来进一步增强唇部同步。在 LRW 数据集和 GRID 数据集上进行的实验结果显示，该方法在性别和姿势变化方面具有鲁棒的高分辨率综合，改进了现有方法在普遍指标上的性能。

Dec, 2018

使你的演员说话：运动和外貌解耦的通用和高保真度的唇同步

我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法，通过将唇部运动和视觉外观分离并分别生成，使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失，我们可以保留个人身份信息，并通过使用独立编码器对唇部、非唇部外观和运动进行编码，并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明，我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。

Jun, 2024