增强式说话人脸视频生成与评估的音频视觉语音表示专家
本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法,并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法,并获得其他方面的收益。
Mar, 2023
该论文提出了一个名为 Audio-Lip Memory 的技术,使用存储在音频特征中的唇部运动信息来帮助生成与音频最匹配的嘴形,从而使得面部运动与音频之间出现了更加精细的时序一致性,实现了更高质量的谈话面部生成。
Nov, 2022
VideoReTalking 提供一种新的编辑现实中的人物对话视频的系统来生成高质量的、与输入音频同步的视频,其中包括三个连续的步骤:生成具有规范表情的面部视频、音频驱动的口型同步和面部增强。该系统可以处理所有三个步骤,且不需要任何用户干预,适用于任何人物并可以在大规模数据集上获得最高的潜在精度和视觉质量。
Nov, 2022
利用大型语言模型指导实现具有表情细节合成能力的说话人脸生成系统,通过先理解语音信息并生成指令,再执行这些指令生成具有表情运动的生动说话人脸,实验证明该方法有效且具有一致的情感状态。
Feb, 2024
AV-HuBERT 是自监督学习框架,用于从视频、音频中学习音视双方言的表征,可用于口型阅读和语音识别任务。在 433 小时的公共数据集 LRS3 上,使用 AV-HuBERT 的自我训练,口型阅读错误率降低到 26.9%,使用相同的表征进行语音识别的性能提高了 40%相对减少至 1.3%。
Jan, 2022
该研究旨在通过学习分解的音频 - 视觉表示来实现任意主题的对话面生成,并证明所学习的音频 - 视觉表示对于自动读唇和音频 - 视频检索任务非常有用。
Jul, 2018
利用给定的音频和参考帧生成口型同步、逼真的人脸视频是一项重要任务,其中的关键挑战涉及生成图像的整体视觉质量以及嘴部的音频 - 视频同步。本文首先指出了最近几种音频驱动人脸生成方法中同步方法存在的问题,包括从参考图像到生成图像的唇部和姿势信息的意外流动以及模型训练的不稳定性。随后我们提出了几种技术来解决这些问题:第一,通过无声的唇部参考图像生成器防止唇部信息从参考图像泄露到生成图像;第二,使用自适应三元损失解决姿势信息泄露问题;最后,我们提出了一个稳定的同步损失表达式,解决了训练不稳定性问题,并进一步减轻了唇部信息泄露问题。通过结合这些改进,我们在 LRS2 和 LRW 的音频 - 视觉同步和视觉质量方面表现出最先进的性能。我们还通过各种消融实验证实了我们的设计,确认了各个改进措施的独立贡献以及它们的互补效果。
Jul, 2023
本文提出了一种基于 AVCT 的新型一次性说话脸部生成框架,通过从特定说话者的音频和视觉动作中探索一致的相关性,然后将基于密集运动场的音频驱动的运动场转移至参考图像,以生成具有真实嘴部形状和生动运动的视频。
Dec, 2021
本文提出了一种新的任意说话脸生成框架,通过提出的 AMIE 发现音频和视频信息之间的视听一致性,以及通过训练阶段中选择性聚焦输入图像的嘴唇区域来进一步增强唇部同步。在 LRW 数据集和 GRID 数据集上进行的实验结果显示,该方法在性别和姿势变化方面具有鲁棒的高分辨率综合,改进了现有方法在普遍指标上的性能。
Dec, 2018
我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法,通过将唇部运动和视觉外观分离并分别生成,使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失,我们可以保留个人身份信息,并通过使用独立编码器对唇部、非唇部外观和运动进行编码,并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明,我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。
Jun, 2024