神经配音员：按照剧本为视频配音

Oct, 2021

神经配音员：按照剧本为视频配音

Neural Dubber: Dubbing for Videos According to Scripts

Chenxu Hu, Qiao Tian, Tingle Li, Yuping Wang, Yuxuan Wang...

TL;DR本文提出了一种利用神经网络模型实现视频配音的方法，该模型能够根据视频中的口型运动控制生成音频的音调，并且针对多人场景还开发了一种基于图像的扬声器嵌入模块，实现了在说话者面部表示下根据不同的人物角色生成不同的音调，经实验证明即便是在多人场景下也能达到与当前最优文本转语音模型相当的音频质量和音频与视频的时间同步表现。

Abstract

dubbing is a post-production process of re-recording actors' dialogues, which is extensively used in filmmaking and video production. It is usually performed manually by professional voice actors who read lines with proper prosody, and in synchronization with the pre-recorded videos. I

dubbing neural network automatic video dubbing text-to-speech multi-speaker dataset

发现论文，激发创造

适用于所有人的配音：使用神经渲染先验进行高效配音

利用数据效率的神经渲染先验和神经纹理进行演员特定的自适应，以达到高质量的视觉配音，只需几秒钟的数据即可实现，同时具有限数据的普遍性和可扩展性。

Jan, 2024

通过分层韵律模型学习配音电影

该研究提出了一种新的电影配音架构，采用层次化韵律建模的方法，在三个方面的口型、面部表情和场景方面将视觉信息与对应的语音韵律相结合，包括使用情感增强器捕捉情境气氛，获得了良好的实验结果。

Dec, 2022

神经风格保持的视觉配音

提出了一种基于运动风格和生成对抗网络的可视化配音方法，该方法将目标演员的签名风格保留在修改面部表情（包括口型运动）以匹配外语时，并且实验结果表明，与先前的方法相比，我们的可视化配音方法更好地保持了目标演员的固有风格。

Sep, 2019

从语音到语音翻译到自动配音

本文提出了一种基于神经网络的语音 - 语音翻译系统，实现了自动配音。实验结果表明自动配音的自然度得到了显著提升，包括多个技术创新点，如神经机器翻译、音频渲染、语音对位、语音合成等。

Jan, 2020

Face-Dubbing++: 视频的口形同步，保留音频的翻译

本文提出了一种基于神经网络的端到端系统，用于语音保留、唇面同步翻译视频，通过多个组件模型的组合，该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频，并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验，我们的系统能够有效地产生令人信服的视频，而且我们也分别对系统的单个组件进行了测试。

Jun, 2022

神经语音傀儡术：基于音频的面部再现

本文介绍了神经语音操纵 (Neural Voice Puppetry) 的新方法，即通过深度神经网络驱动的三维面部模型，实现了基于音频和文本的视频合成，包括生成音频驱动的虚拟形象和文本驱动的谈话头像等多种用途。

Dec, 2019

StyleDubber：面向电影配音的多尺度风格学习

在电影配音中，通过将学习从帧级别转换到音素级别，我们提出了 StyleDubber 方法，包含了三个主要组件，即操作在音素级别的多模态风格适配器，以及在视频中呈现面部情绪的中间表示的生成；以及从中间嵌入到整体风格表达的 mel-spectrogram 解码和细化过程的话语级风格学习模块；以及维持嘴唇同步的音素引导的对齐器。与现有最先进的方法相比，对 V2C 和 Grid 这两个主要基准进行的广泛实验证明了所提方法的良好性能。

Feb, 2024

联合优化翻译和语音时序以改善自动配音中的等时间性

本研究提出了一种自动配音的模型，通过同时进行翻译和语音持续时间的优化，实现生成的配音更好地匹配原始视频的时间轴，同时简化了整个系统的结构。

Feb, 2023

VideoDubber: 视频配音的语音感知长度控制机器翻译

该研究针对影视配音中原始语音和目标语音的对齐问题，提出一种机器翻译系统，通过考虑语音时长控制翻译长度，构建了真实世界情景下的测试集，实现了对自然长度的更好控制。

Nov, 2022

实际配音：人类本土化的大规模研究及对自动补音的启示

本研究探讨了人类如何将视频内容从一种语言翻译成另一种语言的配音任务，利用了 319.57 小时的录像数据，结果挑战了一些关于人类配音和自动配音的普遍假定，论证了口头自然和翻译质量的重要性，同时揭示了源边声音在语音特征、情感强调等方面对人类配音的影响，强调自动配音系统需要更好地保留这些语音特征和语义转换，同时要重视时长约束。

Dec, 2022