离屏幕自动配音的韵律对齐

Apr, 2022

Prosodic Alignment for off-screen automatic dubbing

Yogesh Virkar, Marcello Federico, Robert Enyedi, Roberto Barra-Chicote

TL;DR本研究扩展了原有的韵律对准模型，以适应更宽松的音视频同步要求，实验显示，相比先前的工作，本方法在字幕可见和不可见情况下的口译应用中均提供了更好的主观观感。

Abstract

The goal of automatic dubbing is to perform speech-to-speech translation while achieving audiovisual coherence. This entails isochrony, i.e., translating the original speech by also matching its prosodic structur

automatic dubbing audiovisual coherence prosodic alignment model off-screen dubbing ted talks

发现论文，激发创造

机器配音的韵律短语对齐

本文探讨了机器配音中的特定问题，方法是利用神经机器翻译中的注意机制找到可能的短语并将其用于合成，记录了与专业配音翻译的相似语速比率，并改善了长对话行的唇同步问题。

Aug, 2019

联合优化翻译和语音时序以改善自动配音中的等时间性

本研究提出了一种自动配音的模型，通过同时进行翻译和语音持续时间的优化，实现生成的配音更好地匹配原始视频的时间轴，同时简化了整个系统的结构。

Feb, 2023

从语音到语音翻译到自动配音

本文提出了一种基于神经网络的语音 - 语音翻译系统，实现了自动配音。实验结果表明自动配音的自然度得到了显著提升，包括多个技术创新点，如神经机器翻译、音频渲染、语音对位、语音合成等。

Jan, 2020

实际配音：人类本土化的大规模研究及对自动补音的启示

本研究探讨了人类如何将视频内容从一种语言翻译成另一种语言的配音任务，利用了 319.57 小时的录像数据，结果挑战了一些关于人类配音和自动配音的普遍假定，论证了口头自然和翻译质量的重要性，同时揭示了源边声音在语音特征、情感强调等方面对人类配音的影响，强调自动配音系统需要更好地保留这些语音特征和语义转换，同时要重视时长约束。

Dec, 2022

VideoDubber: 视频配音的语音感知长度控制机器翻译

该研究针对影视配音中原始语音和目标语音的对齐问题，提出一种机器翻译系统，通过考虑语音时长控制翻译长度，构建了真实世界情景下的测试集，实现了对自然长度的更好控制。

Nov, 2022

通过分层韵律模型学习配音电影

该研究提出了一种新的电影配音架构，采用层次化韵律建模的方法，在三个方面的口型、面部表情和场景方面将视觉信息与对应的语音韵律相结合，包括使用情感增强器捕捉情境气氛，获得了良好的实验结果。

Dec, 2022

用于将大规模跨语言配音的技术管道应用于多种印度语言的讲座视频

本文描述了将英语讲座视频半自动化地翻译成 9 种印度语言，使其具有良好的口头表现，同时降低了 75% 的人工成本。

Nov, 2022

自动字幕直接语音翻译

本论文提出了一种直接自动生成目标语言字幕及相应时间戳的自动字幕模型，与现有的级联模型相比，在提供高质量字幕的同时也具有更高的一致性和维护单一模型的优点。

Sep, 2022

从配音系列中创建语音到语音语料库

本研究提出了一种无监督方法来构建语音到语音语料库，并利用视频帧、语音识别、机器翻译和噪声帧去除算法在短片段层面上对齐源语言和目标语言，以生成一种平行语音语料库，并应用于短音频片段和长音频剪辑，效果表现稳健。

Mar, 2022

神经配音员：按照剧本为视频配音

本文提出了一种利用神经网络模型实现视频配音的方法，该模型能够根据视频中的口型运动控制生成音频的音调，并且针对多人场景还开发了一种基于图像的扬声器嵌入模块，实现了在说话者面部表示下根据不同的人物角色生成不同的音调，经实验证明即便是在多人场景下也能达到与当前最优文本转语音模型相当的音频质量和音频与视频的时间同步表现。

Oct, 2021