探索嘴唇运动中的音系上下文以生成真实的口型动画

May, 2023

探索嘴唇运动中的音系上下文以生成真实的口型动画

Exploring Phonetic Context in Lip Movement for Authentic Talking Face Generation

Se Jin Park, Minsu Kim, Jeongsoo Choi, Yong Man Ro

TL;DR本文提出了一种基于音位上下文识别的口型同步框架（CALS），该框架通过引入对音位上下文的建模来生成空间时间上对齐的、相对稳定的对话人物口型。实验表明，CALS 大幅提高了视觉质量、口型同步质量和真实感，最终的口技可读性测试预测准确性达到了 97.7%。

Abstract

talking face generation is the task of synthesizing a natural face synchronous to driving audio. Although much progress has been made in terms of visual quality, lip synchronization, and facial motion of the talk

talking face generation lip synchronization phonetic context cals spatio-temporal alignment

发现论文，激发创造

SyncTalkFace：通过音 - 唇记忆实现精准嘴唇同步的说话人脸生成

该论文提出了一个名为 Audio-Lip Memory 的技术，使用存储在音频特征中的唇部运动信息来帮助生成与音频最匹配的嘴形，从而使得面部运动与音频之间出现了更加精细的时序一致性，实现了更高质量的谈话面部生成。

Nov, 2022

由唇语专家引导的交谈面部生成

本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法，并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法，并获得其他方面的收益。

Mar, 2023

学习个别讲话风格以实现准确的唇读语音合成

本文提出了一种基于说话者唇部运动的语音合成方法，通过收集唇部运动大规模数据集并针对唇读单个说话者在自然环境下的情况进行模型设计，该模型可以更准确、自然地模拟说话者的语音，其量化、定性评估结果表明，该方法比现有方法的可理解性提高了四倍。

May, 2020

一目了然：唇部运动生成

本文研究了跨模态生成的任务，通过融合音频和图像嵌入，提出了一种新的关联损失函数和利用四种损失函数生成唇部运动的端到端模型，并在多个数据集上的实验中验证了该模型对唇形状，视角和面部特征的鲁棒性。

Mar, 2018

Speech2Lip: 高保真语音到嘴唇生成通过学习自一部短视频

给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架，该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频，实现了短视频时的准确嘴唇和形象产生，以及视频的视觉质量和语音 - 视觉同步方面的最新性能。

Sep, 2023

一种新颖的基于 CNN 和 LSTM 的语音驱动唇形同步模型

使用一维卷积和 LSTM 的深度神经网络模型，结合语音识别模型和速度损失值的方式，实现了音频与动态唇形同步的三维面部建模和动画，其生成的平滑和自然唇部运动已经成功在汉语口音的成人中得到验证。

May, 2022

使你的演员说话：运动和外貌解耦的通用和高保真度的唇同步

我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法，通过将唇部运动和视觉外观分离并分别生成，使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失，我们可以保留个人身份信息，并通过使用独立编码器对唇部、非唇部外观和运动进行编码，并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明，我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。

Jun, 2024

基于条件循环对抗网络的说话人脸生成

提出一种基于条件对抗生成的视频网络，该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性，从而实现唇部和面部平稳过度，最终通过音频片段提取的音素分布信息，开发出一种样本选择方法，可以在不降低生成视频质量的情况下有效减小训练数据集的规模。

Apr, 2018

堵塞泄漏：通过防止无意的信息传递推进基于音频的说话人脸生成

利用给定的音频和参考帧生成口型同步、逼真的人脸视频是一项重要任务，其中的关键挑战涉及生成图像的整体视觉质量以及嘴部的音频 - 视频同步。本文首先指出了最近几种音频驱动人脸生成方法中同步方法存在的问题，包括从参考图像到生成图像的唇部和姿势信息的意外流动以及模型训练的不稳定性。随后我们提出了几种技术来解决这些问题：第一，通过无声的唇部参考图像生成器防止唇部信息从参考图像泄露到生成图像；第二，使用自适应三元损失解决姿势信息泄露问题；最后，我们提出了一个稳定的同步损失表达式，解决了训练不稳定性问题，并进一步减轻了唇部信息泄露问题。通过结合这些改进，我们在 LRS2 和 LRW 的音频 - 视觉同步和视觉质量方面表现出最先进的性能。我们还通过各种消融实验证实了我们的设计，确认了各个改进措施的独立贡献以及它们的互补效果。

Jul, 2023

基于 Transformer 的音视觉上下文利用的遮蔽唇同步预测

本文提出了一种基于 Audio-Visual Context-Aware Transformer (AV-CAT) 框架的口型同步技术，可同时利用音频和视频信息，通过设计卷积 - Transformer 混合骨干网络和基于注意力机制的融合策略，对图像进行口型蒙版、填充和修改，从而在保证图像真实性的前提下，生成高质量的口型同步结果。

Dec, 2022