OpFlowTalker：通过光流引导实现逼真自然的说话人脸生成

May, 2024

OpFlowTalker：通过光流引导实现逼真自然的说话人脸生成

OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance

Shuheng Ge, Haoyu Xing, Li Zhang, Xiangqian Wu

TL;DR通过应用光流来指导面部图像生成，增强帧与帧之间的连续性和语义一致性，这篇论文提出了一种名为 “OpFlowTalker” 的新方法，利用音频输入预测的光流变化而非直接预测图像，平滑图像的过渡并使其与语义内容相吻合，通过序列融合技术替代单帧的独立生成，同时引入光流同步模块来调节全脸和唇部运动，优化视觉合成的区域动态，并引入了一种可以准确测量合成视频中唇读能力的 “视觉文本一致性得分（VTCS）”，广泛的实证证据验证了我们的方法的有效性。

Abstract

Creating realistic, natural, and lip-readable talking face videos remains a formidable challenge. Previous research primarily concentrated on generating and aligning single-frame images while overlooking the smoothness of frame-to-frame transitions and temporal dependencies. This often

lip-readable talking face videos optical flow inter-frame continuity semantic consistency visual synthesis

发现论文，激发创造

使用光流估计合成逼真的场景文本视频

本文介绍了一种名为 FlowText 的视频文字合成技术，通过利用光流估计，在低成本的情况下合成大量的文本视频数据，用于训练强健的视频文字定位器。实验证明，将 TransDETR 等通用检测器与 FlowText 结合使用，可以在 ICDAR2015video 和 ICDAR2013video 等不同数据集上获得显著的结果。

May, 2023

全控制对话人脸生成

论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间，提出正交性约束来分离身份和运动，从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明，我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部，头部姿势和眼动等所有目标面部运动的谈话面孔生成框架，没有超越 RGB 视频与音频的任何附加监督。

Apr, 2023

堵塞泄漏：通过防止无意的信息传递推进基于音频的说话人脸生成

利用给定的音频和参考帧生成口型同步、逼真的人脸视频是一项重要任务，其中的关键挑战涉及生成图像的整体视觉质量以及嘴部的音频 - 视频同步。本文首先指出了最近几种音频驱动人脸生成方法中同步方法存在的问题，包括从参考图像到生成图像的唇部和姿势信息的意外流动以及模型训练的不稳定性。随后我们提出了几种技术来解决这些问题：第一，通过无声的唇部参考图像生成器防止唇部信息从参考图像泄露到生成图像；第二，使用自适应三元损失解决姿势信息泄露问题；最后，我们提出了一个稳定的同步损失表达式，解决了训练不稳定性问题，并进一步减轻了唇部信息泄露问题。通过结合这些改进，我们在 LRS2 和 LRW 的音频 - 视觉同步和视觉质量方面表现出最先进的性能。我们还通过各种消融实验证实了我们的设计，确认了各个改进措施的独立贡献以及它们的互补效果。

Jul, 2023

基于条件循环对抗网络的说话人脸生成

提出一种基于条件对抗生成的视频网络，该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性，从而实现唇部和面部平稳过度，最终通过音频片段提取的音素分布信息，开发出一种样本选择方法，可以在不降低生成视频质量的情况下有效减小训练数据集的规模。

Apr, 2018

通过对抗性解缠音视频表示生成会说话的面部表情

该研究旨在通过学习分解的音频 - 视觉表示来实现任意主题的对话面生成，并证明所学习的音频 - 视觉表示对于自动读唇和音频 - 视频检索任务非常有用。

Jul, 2018

FlowVQTalker：通过正则化流和量化实现高质量的情感说话人脸生成

利用归一化流和向量量化建模生成既满足面部动态的同步性和多对多映射关系，又包含高清纹理和细节牙齿的情感说话脸，具体方法为通过流式系数生成器对面部情绪进行编码，利用伴随音频引导随机采样生成唇同步和不确定的非言语面部线索，并借助学习的码本提供富有表现力、高质量的纹理，从而增强结果的情感感知。

Mar, 2024

由唇语专家引导的交谈面部生成

本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法，并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法，并获得其他方面的收益。

Mar, 2023

单发音讯视觉相关性学习生成单次语言人脸

本文提出了一种基于 AVCT 的新型一次性说话脸部生成框架，通过从特定说话者的音频和视觉动作中探索一致的相关性，然后将基于密集运动场的音频驱动的运动场转移至参考图像，以生成具有真实嘴部形状和生动运动的视频。

Dec, 2021

利用正交信息层次生成视频：光流和纹理

使用光流作为 motion 信息的 FTGAN 模型，包含 FlowGAN 和 TextureGAN，实现了在无监督学习的情况下生成更真实的视频，可帮助提高动作分类的性能。

Nov, 2017

高保真自由可控的说话头部视频生成

本文提出了一种新模型，通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模，并引入了新的运动感知多尺度特征对齐模块来进行视频合成，从而实现了对头部姿态和表情的自由控制，并且得到了最优质的合成音频视频输出。

Apr, 2023