Face-Dubbing++: 视频的口形同步，保留音频的翻译

Jun, 2022

Face-Dubbing++: 视频的口形同步，保留音频的翻译

Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos

Alexander Waibel, Moritz Behr, Fevziye Irem Eyiokur, Dogucan Yaman, Tuan-Nam Nguyen...

TL;DR本文提出了一种基于神经网络的端到端系统，用于语音保留、唇面同步翻译视频，通过多个组件模型的组合，该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频，并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验，我们的系统能够有效地产生令人信服的视频，而且我们也分别对系统的单个组件进行了测试。

Abstract

In this paper, we propose a neural end-to-end system for voice preserving, lip-synchronous translation of videos. The system is designed to combine multiple component models and produces a video of the original speaker speaking in the target language that is lip-synchronous with the ta

neural end-to-end system video translation speech-to-text text-to-speech generative adversarial network

发现论文，激发创造

自动面对面翻译

该研究提出了一种称为 “面对面翻译” 的新方法，旨在通过自动将语言 A 的视频翻译为目标语言 B 并实现逼真的嘴唇同步来改善跨语言多模态内容的用户体验。项目包括语音 - 语音翻译系统、视觉模块和基于 LipGAN 方法的生成逼真头像的技术，对涉及多种现实应用场景的人机交互和可消费多模态内容具有显著优势。

Mar, 2020

VideoReTalking: 野外环境中基于音频的人工合成视频嘴型同步技术

VideoReTalking 提供一种新的编辑现实中的人物对话视频的系统来生成高质量的、与输入音频同步的视频，其中包括三个连续的步骤：生成具有规范表情的面部视频、音频驱动的口型同步和面部增强。该系统可以处理所有三个步骤，且不需要任何用户干预，适用于任何人物并可以在大规模数据集上获得最高的潜在精度和视觉质量。

Nov, 2022

多语言 TTS 的说话人脸生成

本论文提出一种多语言对话生成系统，结合了人脸生成和文本到语音系统，可以仅通过文本输入生成多种语言的自然语音、同步口型，无论输入文本的语言如何，均可维持语音人的声音特征。同时，我们添加了翻译 API，展示神经配音技术的应用。

May, 2022

TransFace：基于单元的视听语音合成器，用于说话头部翻译

通过自监督学习获得的离散单元，直接语音翻译实现高质量结果，克服了模型级联带来的延迟和级联错误；本文提出了一种名为 TransFace 的模型，用于直接将视听语音翻译成其他语言的视听语音，通过语音到单元翻译模型和基于单元的视听语音合成器 Unit2Lip 实现音频与视频的同步语音重新合成，进一步引入了有界时长预测器以确保等时转头说话的翻译并防止重复参考帧

Dec, 2023

TRAVID：一种端到端的视频翻译框架

本文介绍了一种视频翻译系统，不仅能够翻译语言，还能将翻译的声音与说话者的唇部运动同步。该系统专注于翻译印度各种语言的教育讲座，在低资源环境中也能高效运行。通过将目标语言与说话者的唇部运动结合，并使用语音克隆技术将它们与说话者的声音匹配，我们的应用程序为学生和用户提供了更加沉浸式和真实的学习环境，从而增强了学习的效果和吸引力。

Sep, 2023

你说了什么？

本文提出了一种生成说话脸部视频的方法，该方法使用了联合嵌入的编码器解码器 CNN 模型对目标音频和人脸进行建模来生成视频，并且还展示了使用不同人的语音重新配音的结果。

May, 2017

面向异构来源实现逼真的视觉配音

本文提出了一种简单而高效的两阶段框架，通过面部特征作为中间先验，从真实说话头生成的核心任务中区分出音频和图像的同步和生成，以更容易获取的杂类数据培训两个子网，以及允许对给定的说话头进行进一步的微调，从而实现高保真的 few-shot 视觉配音。

Jan, 2022

基于条件循环对抗网络的说话人脸生成

提出一种基于条件对抗生成的视频网络，该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性，从而实现唇部和面部平稳过度，最终通过音频片段提取的音素分布信息，开发出一种样本选择方法，可以在不降低生成视频质量的情况下有效减小训练数据集的规模。

Apr, 2018

使你的演员说话：运动和外貌解耦的通用和高保真度的唇同步

我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法，通过将唇部运动和视觉外观分离并分别生成，使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失，我们可以保留个人身份信息，并通过使用独立编码器对唇部、非唇部外观和运动进行编码，并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明，我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。

Jun, 2024

神经风格保持的视觉配音

提出了一种基于运动风格和生成对抗网络的可视化配音方法，该方法将目标演员的签名风格保留在修改面部表情（包括口型运动）以匹配外语时，并且实验结果表明，与先前的方法相比，我们的可视化配音方法更好地保持了目标演员的固有风格。

Sep, 2019