面向异构来源实现逼真的视觉配音

Jan, 2022

面向异构来源实现逼真的视觉配音

Towards Realistic Visual Dubbing with Heterogeneous Sources

Tianyi Xie, Liucheng Liao, Cheng Bi, Benlai Tang, Xiang Yin...

TL;DR本文提出了一种简单而高效的两阶段框架，通过面部特征作为中间先验，从真实说话头生成的核心任务中区分出音频和图像的同步和生成，以更容易获取的杂类数据培训两个子网，以及允许对给定的说话头进行进一步的微调，从而实现高保真的 few-shot 视觉配音。

Abstract

The task of few-shot visual dubbing focuses on synchronizing the lip movements with arbitrary speech input for any talking head video. Albeit moderate improvements in current approaches, they commonly require high-quality homologous data sources of videos and audios, thus causing the f

few-shot visual dubbing lip movements two-stage framework heterogeneous data realistic talking head generation

发现论文，激发创造

使你的演员说话：运动和外貌解耦的通用和高保真度的唇同步

我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法，通过将唇部运动和视觉外观分离并分别生成，使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失，我们可以保留个人身份信息，并通过使用独立编码器对唇部、非唇部外观和运动进行编码，并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明，我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。

Jun, 2024

通过分层韵律模型学习配音电影

该研究提出了一种新的电影配音架构，采用层次化韵律建模的方法，在三个方面的口型、面部表情和场景方面将视觉信息与对应的语音韵律相结合，包括使用情感增强器捕捉情境气氛，获得了良好的实验结果。

Dec, 2022

VividTalk：基于 3D 混合先验模型的单次音频驱动说话头生成

提出了一个名为 VividTalk 的两阶段通用框架，用于生成具有高视觉质量的语音驱动的说话人视频，并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。

Dec, 2023

Face-Dubbing++: 视频的口形同步，保留音频的翻译

本文提出了一种基于神经网络的端到端系统，用于语音保留、唇面同步翻译视频，通过多个组件模型的组合，该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频，并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验，我们的系统能够有效地产生令人信服的视频，而且我们也分别对系统的单个组件进行了测试。

Jun, 2022

DiffDub：使用扩充自动编码器的修复渲染器进行人物通用视觉配音

通过 Diffusion-based dubbing 方法，我们提出了 DiffDub 自动编码器，可以实现高质量的视觉配音，包括无痕填充和人物特定纹理等创新性策略，通过全面的实验证明，我们的方法在人员通用和多语言场景中优于现有方法，并提供无缝连贯、可理解的视频。

Nov, 2023

Speech2Lip: 高保真语音到嘴唇生成通过学习自一部短视频

给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架，该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频，实现了短视频时的准确嘴唇和形象产生，以及视频的视觉质量和语音 - 视觉同步方面的最新性能。

Sep, 2023

适用于所有人的配音：使用神经渲染先验进行高效配音

利用数据效率的神经渲染先验和神经纹理进行演员特定的自适应，以达到高质量的视觉配音，只需几秒钟的数据即可实现，同时具有限数据的普遍性和可扩展性。

Jan, 2024

高保真自由可控的说话头部视频生成

本文提出了一种新模型，通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模，并引入了新的运动感知多尺度特征对齐模块来进行视频合成，从而实现了对头部姿态和表情的自由控制，并且得到了最优质的合成音频视频输出。

Apr, 2023

MultiTalk: 多语种视频数据集增强跨语言的三维说话头生成

通过多语种 2D 视频数据集，引入多语种增强模型，利用语言特定的样式嵌入，提高了 3D 说话人模型的多语种性能，并提出了度量多语种环境下的唇同步准确性指标。

Jun, 2024

VideoReTalking: 野外环境中基于音频的人工合成视频嘴型同步技术

VideoReTalking 提供一种新的编辑现实中的人物对话视频的系统来生成高质量的、与输入音频同步的视频，其中包括三个连续的步骤：生成具有规范表情的面部视频、音频驱动的口型同步和面部增强。该系统可以处理所有三个步骤，且不需要任何用户干预，适用于任何人物并可以在大规模数据集上获得最高的潜在精度和视觉质量。

Nov, 2022