从配音系列中创建语音到语音语料库

Mar, 2022

从配音系列中创建语音到语音语料库

Creating Speech-to-Speech Corpus from Dubbed Series

Massa Baali, Wassim El-Hajj, Ahmed Ali

TL;DR本研究提出了一种无监督方法来构建语音到语音语料库，并利用视频帧、语音识别、机器翻译和噪声帧去除算法在短片段层面上对齐源语言和目标语言，以生成一种平行语音语料库，并应用于短音频片段和长音频剪辑，效果表现稳健。

Abstract

dubbed series are gaining a lot of popularity in recent years with strong support from major media service providers. Such popularity is fueled by studies that showed that dubbed versions of TV shows are more popular than their subtitled equivalents. We propose an →

dubbed series speech-to-speech corpus unsupervised approach parallel speech corpus segment alignment

发现论文，激发创造

从语音到语音翻译到自动配音

本文提出了一种基于神经网络的语音 - 语音翻译系统，实现了自动配音。实验结果表明自动配音的自然度得到了显著提升，包括多个技术创新点，如神经机器翻译、音频渲染、语音对位、语音合成等。

Jan, 2020

使用法语翻译扩充 Librispeech：一种用于直接语音翻译评估的多模态语料库

本文介绍了使用 LibriSpeech 增强现有单语语料库的方法，建立起一种包含源语言中的语音与目标语言中的文本的大型开放式平行语料库，并给出了相应的处理细节和手动评估结果，该平行语料库可以用于直接语音翻译或其他口语翻译实验。

Feb, 2018

用于语音识别和翻译的多语种 TEDx 语料库

我们提供了一个多语言 TEDx 语料库，支持语音识别和语音翻译的研究，可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合，提供了 8 个源语言，我们将转录分割成句子，并将它们与源语言音频和目标语言翻译对齐。此外，我们提供基线模型，包括多语种模型，以提高低资源语种的翻译性能。

Feb, 2021

用于将大规模跨语言配音的技术管道应用于多种印度语言的讲座视频

本文描述了将英语讲座视频半自动化地翻译成 9 种印度语言，使其具有良好的口头表现，同时降低了 75% 的人工成本。

Nov, 2022

剧本音视频的讲话人分离

利用制作脚本为演讲人辨别任务提取伪标记数据的半监督方法在 66 个节目测试集上相对于两个非监督基准模型显示出了 51.7% 的改进。

Aug, 2023

LibriVoxDeEn: 一个用于德语到英语语音翻译和德语语音识别的语料库

该研究提供一个德语语音、德语文本和英语翻译的平行语料库，以德语有声读物为基础，包括 110 小时的音频材料，对齐了超过 50k 句平行句子，并且提供了更大的数据集，包括 547 小时的德语语音对齐了德语文本，同时为德语语音识别和德语到英语的端到端翻译提供了大量的资源。

Oct, 2019

对话翻译篇章语料库的自动构建

本文提出一种新方法，自动构建对话机器翻译的平行话语语料库，经实验表明，采用该方法可以显著提高翻译质量，同时公开了大约 10 万条已经手动标注了发言者和对话边界的平行话语数据。

May, 2016

VideoDubber: 视频配音的语音感知长度控制机器翻译

该研究针对影视配音中原始语音和目标语音的对齐问题，提出一种机器翻译系统，通过考虑语音时长控制翻译长度，构建了真实世界情景下的测试集，实现了对自然长度的更好控制。

Nov, 2022

离屏幕自动配音的韵律对齐

本研究扩展了原有的韵律对准模型，以适应更宽松的音视频同步要求，实验显示，相比先前的工作，本方法在字幕可见和不可见情况下的口译应用中均提供了更好的主观观感。

Apr, 2022

跨语言再演绎的对话

报告介绍了一种协议以收集跨语言韵律映射和其他改善语音翻译的方法，包括收集语言之间紧密匹配的话语对的、数据收集的描述，以及一些相关的观察和思考。此报告面向使用语料库，扩展语料库和设计类似的双语对话数据收集的人。

Nov, 2022