CoVoST: 一个多样化的多语种语音到文本翻译语料库

Feb, 2020

CoVoST: 一个多样化的多语种语音到文本翻译语料库

CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus

Changhan Wang, Juan Pino, Anne Wu, Jiatao Gu

TL;DR本文介绍了 CoVoST—— 一个多语言的语音 - 文本翻译语料库，并提供了详细的数据集创建方法、数据质量实证和多语言翻译模型的前期实验成果。

Abstract

spoken language translation has recently witnessed a resurgence in popularity, thanks to the development of end-to-end models and the creation of new corpora, such as Augmented LibriSpeech and MuST-C. Existing da

spoken language translation multilingual corpus end-to-end models covost multilingual models

发现论文，激发创造

CoVoST 2 和大规模多语音言语音到文本翻译

发布 CoVoST 2 语料库，其中包括来自 21 种语言翻译成英语和从英语翻译成 15 种语言的大规模多语言语音翻译语料库，此数据集是目前总量最大、语言覆盖面最广的公开数据集，同时提供 extensive 的语音识别、双语和多语言机器翻译及语音翻译的基线结果。

Jul, 2020

CVSS Corpus 和大规模多语言语音到语音翻译

该论文介绍了一种名为 CVSS 的大规模多语言至英语语音翻译 (S2ST) 语料库，可以从 21 种语言中提取平行的语句级别的 S2ST 对，并用最先进的 TTS 系统将 CoVoST 2 的翻译文本合成语音。此外，研究构建了基线多语言直接 S2ST 模型和串联 S2ST 模型，并对该语料库的有效性进行了验证。

Jan, 2022

用于语音识别和翻译的多语种 TEDx 语料库

我们提供了一个多语言 TEDx 语料库，支持语音识别和语音翻译的研究，可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合，提供了 8 个源语言，我们将转录分割成句子，并将它们与源语言音频和目标语言翻译对齐。此外，我们提供基线模型，包括多语种模型，以提高低资源语种的翻译性能。

Feb, 2021

MuAViC: 一个用于稳健语音识别和文本翻译的多语言音视频语料库

MuAViC 是首个开放的多语言视听数据集，共提供了 1200 小时覆盖 9 种语言的视听数据，可应用于嘈杂环境下的语音识别和翻译模型构建。

Mar, 2023

Europarl-ST：面向议会辩论的语音翻译多语种语料库

本研究通过收集欧洲议会在 2008 年至 2012 年期间进行的演讲，创建了一个新型的包括 6 种欧洲语言互相翻译的语音和文本样本的多语种 SLT 语料库 Europarl-ST，并展示了一系列的语音识别、机器翻译和口语翻译实验。

Nov, 2019

Common Voice: 一個大規模多語言語音語料庫

Common Voice 是一个为语音技术研究和开发设计的大型多语言转录音频资源，采用众包方式进行数据收集和验证，目前包括 29 种语言，收集了超过 2500 小时的音频数据，实现了多语言端到端的自动语音识别。

Dec, 2019

多语言语音翻译至多个目标语言

提出了一种支持多个目标语言的多语言语音翻译模型，采用语音单元和语音合成器进行多语言扩展，并在基准翻译测试集中表现优于双语模型。

Jul, 2023

GigaST：一份拥有 10,000 小时的伪语音翻译语料库

本文介绍 GigaST 数据集，它是一个大规模的伪语音转换语料库，通过翻译英文 ASR 语料库 GigaSpeech 到德语和中文等加入大量的机器翻译的数据用于训练，最终的 ST 模型在 MuST-C 英语 - 德语基准测试集中获得了最新的最好成果。

Apr, 2022

CoSTA: 使用对齐的语音文本交替进行混合编码的语音翻译

通过先前训练好的自动语音识别 (ASR) 和机器翻译 (MT) 模块的结合，本研究提出了一种名为 COSTA 的端到端模型架构，用于印度语言到英文文本的混合语言实时翻译，并发布出相关评估基准。COSTA 在混合语言的孟加拉语、印地语、马拉地语和泰卢固语到英文文本的翻译中，相对于其他基线模型表现出显著优势，BLEU 点数提高达 3.5。

Jun, 2024

语音翻译的大规模自监督和半监督学习

通过利用大量未标记的语音和文本数据（包括 Libri-Light 语音音频语料库和 CommonCrawl 语言建模）的预训练和自我训练，我们的实验结果表明，在不利用监督学习数据的前提下，通过 wav2vec 2.0 预训练、自我训练和配合语言模型的方法，能够使所有四个 CoVoST 2 语言对的 BLEU 平均值提高 2.6。代码和模型将公开发布。

Apr, 2021