机器配音的韵律短语对齐

Aug, 2019

Prosodic Phrase Alignment for Machine Dubbing

Alp Öktem, Mireia Farrús, Antonio Bonafonte

TL;DR本文探讨了机器配音中的特定问题，方法是利用神经机器翻译中的注意机制找到可能的短语并将其用于合成，记录了与专业配音翻译的相似语速比率，并改善了长对话行的唇同步问题。

Abstract

dubbing is a type of audiovisual translation where dialogues are translated and enacted so that they give the impression that the media is in the target language. It requires a careful alignment of dubbed recordi

dubbing audiovisual translation machine dubbing prosodic phrase synchronization neural machine translation

发现论文，激发创造

离屏幕自动配音的韵律对齐

本研究扩展了原有的韵律对准模型，以适应更宽松的音视频同步要求，实验显示，相比先前的工作，本方法在字幕可见和不可见情况下的口译应用中均提供了更好的主观观感。

Apr, 2022

联合优化翻译和语音时序以改善自动配音中的等时间性

本研究提出了一种自动配音的模型，通过同时进行翻译和语音持续时间的优化，实现生成的配音更好地匹配原始视频的时间轴，同时简化了整个系统的结构。

Feb, 2023

从语音到语音翻译到自动配音

本文提出了一种基于神经网络的语音 - 语音翻译系统，实现了自动配音。实验结果表明自动配音的自然度得到了显著提升，包括多个技术创新点，如神经机器翻译、音频渲染、语音对位、语音合成等。

Jan, 2020

神经配音员：按照剧本为视频配音

本文提出了一种利用神经网络模型实现视频配音的方法，该模型能够根据视频中的口型运动控制生成音频的音调，并且针对多人场景还开发了一种基于图像的扬声器嵌入模块，实现了在说话者面部表示下根据不同的人物角色生成不同的音调，经实验证明即便是在多人场景下也能达到与当前最优文本转语音模型相当的音频质量和音频与视频的时间同步表现。

Oct, 2021

通过分层韵律模型学习配音电影

该研究提出了一种新的电影配音架构，采用层次化韵律建模的方法，在三个方面的口型、面部表情和场景方面将视觉信息与对应的语音韵律相结合，包括使用情感增强器捕捉情境气氛，获得了良好的实验结果。

Dec, 2022

VideoDubber: 视频配音的语音感知长度控制机器翻译

该研究针对影视配音中原始语音和目标语音的对齐问题，提出一种机器翻译系统，通过考虑语音时长控制翻译长度，构建了真实世界情景下的测试集，实现了对自然长度的更好控制。

Nov, 2022

跨语言再演绎的对话

报告介绍了一种协议以收集跨语言韵律映射和其他改善语音翻译的方法，包括收集语言之间紧密匹配的话语对的、数据收集的描述，以及一些相关的观察和思考。此报告面向使用语料库，扩展语料库和设计类似的双语对话数据收集的人。

Nov, 2022

实际配音：人类本土化的大规模研究及对自动补音的启示

本研究探讨了人类如何将视频内容从一种语言翻译成另一种语言的配音任务，利用了 319.57 小时的录像数据，结果挑战了一些关于人类配音和自动配音的普遍假定，论证了口头自然和翻译质量的重要性，同时揭示了源边声音在语音特征、情感强调等方面对人类配音的影响，强调自动配音系统需要更好地保留这些语音特征和语义转换，同时要重视时长约束。

Dec, 2022

从配音系列中创建语音到语音语料库

本研究提出了一种无监督方法来构建语音到语音语料库，并利用视频帧、语音识别、机器翻译和噪声帧去除算法在短片段层面上对齐源语言和目标语言，以生成一种平行语音语料库，并应用于短音频片段和长音频剪辑，效果表现稳健。

Mar, 2022

剧本音视频的讲话人分离

利用制作脚本为演讲人辨别任务提取伪标记数据的半监督方法在 66 个节目测试集上相对于两个非监督基准模型显示出了 51.7% 的改进。

Aug, 2023