TransFace：基于单元的视听语音合成器，用于说话头部翻译

Dec, 2023

TransFace：基于单元的视听语音合成器，用于说话头部翻译

TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head Translation

Xize Cheng, Rongjie Huang, Linjun Li, Tao Jin, Zehan Wang...

TL;DR通过自监督学习获得的离散单元，直接语音翻译实现高质量结果，克服了模型级联带来的延迟和级联错误；本文提出了一种名为 TransFace 的模型，用于直接将视听语音翻译成其他语言的视听语音，通过语音到单元翻译模型和基于单元的视听语音合成器 Unit2Lip 实现音频与视频的同步语音重新合成，进一步引入了有界时长预测器以确保等时转头说话的翻译并防止重复参考帧

Abstract

direct speech-to-speech translation achieves high-quality results through the introduction of discrete units obtained from self-supervised learning. This approach circumvents delays and cascading errors associated with model cascading. However, →

direct speech-to-speech translation talking head translation audio-visual speech transface bounded duration predictor

发现论文，激发创造

Face-Dubbing++: 视频的口形同步，保留音频的翻译

本文提出了一种基于神经网络的端到端系统，用于语音保留、唇面同步翻译视频，通过多个组件模型的组合，该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频，并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验，我们的系统能够有效地产生令人信服的视频，而且我们也分别对系统的单个组件进行了测试。

Jun, 2022

自动面对面翻译

该研究提出了一种称为 “面对面翻译” 的新方法，旨在通过自动将语言 A 的视频翻译为目标语言 B 并实现逼真的嘴唇同步来改善跨语言多模态内容的用户体验。项目包括语音 - 语音翻译系统、视觉模块和基于 LipGAN 方法的生成逼真头像的技术，对涉及多种现实应用场景的人机交互和可消费多模态内容具有显著优势。

Mar, 2020

神经文本转口头表达：深度文本到视听说话合成实现听觉与逼真图像

在这篇论文中，我们提出了第一个使用 Transformer 且不遵循级联方法的文本驱动音频视觉语音合成器 NEUTART，它使用联合音频视觉特征空间、语音信息的 3D 面部重建以及通过视觉监督的嘴唇阅读损失，该模型能够生成人类般发音和音视频同步的逼真说话人脸视频，实验证明其在客观指标和人类评估方面达到了最先进的生成质量。

Dec, 2023

VideoReTalking: 野外环境中基于音频的人工合成视频嘴型同步技术

VideoReTalking 提供一种新的编辑现实中的人物对话视频的系统来生成高质量的、与输入音频同步的视频，其中包括三个连续的步骤：生成具有规范表情的面部视频、音频驱动的口型同步和面部增强。该系统可以处理所有三个步骤，且不需要任何用户干预，适用于任何人物并可以在大规模数据集上获得最高的潜在精度和视觉质量。

Nov, 2022

Translatotron 2: 高质量带声音保留的直接语音翻译

该研究提出了 Translatotron 2，一种神经直接语音转语音翻译模型，它具备优秀的翻译质量和语音生成质量，并推出了一种简单方法来保留语音翻译时原始说话者声音，与现有方法相比，它更好地保留了说话者的隐私。

Jul, 2021

AV-TranSpeech: 音视觉鲁棒语音 - 语音翻译

AV-TranSpeech 是第一种不依赖中间文本的视听信息补充模型，通过自监督预训练和跨模态蒸馏，可以有效提高低资源视听数据的语音转换性能。

May, 2023

多语言 TTS 的说话人脸生成

本论文提出一种多语言对话生成系统，结合了人脸生成和文本到语音系统，可以仅通过文本输入生成多种语言的自然语音、同步口型，无论输入文本的语言如何，均可维持语音人的声音特征。同时，我们添加了翻译 API，展示神经配音技术的应用。

May, 2022

SwapTalk：基于音频驱动的一键定制潜空间内的说话人脸生成

通过结合人脸交换和嘴唇同步技术，本文提出了一种创新的统一框架 SwapTalk，在相同的潜在空间中同时完成人脸交换和嘴唇同步任务，并引入了专家鉴别器指导和身份一致性度量等技术提高视频质量、同步准确性和身份一致性。

May, 2024

MakeItTalk: 面向发言人的说话人头动画

本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法，并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像，并通过定量和定性方法的评估以及用户研究，证明其比现有技术的生成头像的质量显着更高。

Apr, 2020

众人皆醉我独醒：让我依你所愿地说话

该研究提出了一种基于音频输入的编辑目标肖像画面的方法，通过将目标视频帧分解为表情、几何和姿势三个正交参数空间，再利用循环神经网络将源音频转化为表情参数，并在保留原始视频背景的同时合成一个逼真的人物主体，最后利用动态编程构建一个有序连贯且令人信服的逼真视频。

Jan, 2020