CoVoST 2 和大规模多语音言语音到文本翻译

Jul, 2020

CoVoST 2 和大规模多语音言语音到文本翻译

CoVoST 2 and Massively Multilingual Speech-to-Text Translation

Changhan Wang, Anne Wu, Juan Pino

TL;DR发布 CoVoST 2 语料库，其中包括来自 21 种语言翻译成英语和从英语翻译成 15 种语言的大规模多语言语音翻译语料库，此数据集是目前总量最大、语言覆盖面最广的公开数据集，同时提供 extensive 的语音识别、双语和多语言机器翻译及语音翻译的基线结果。

Abstract

speech translation has recently become an increasingly popular topic of research, partly due to the development of benchmark datasets. Nevertheless, current datasets cover a limited number of languages. With the aim to foster research in massive →

speech translation multilingual data set bilingual machine translation speech recognition

发现论文，激发创造

CoVoST: 一个多样化的多语种语音到文本翻译语料库

本文介绍了 CoVoST—— 一个多语言的语音 - 文本翻译语料库，并提供了详细的数据集创建方法、数据质量实证和多语言翻译模型的前期实验成果。

Feb, 2020

CVSS Corpus 和大规模多语言语音到语音翻译

该论文介绍了一种名为 CVSS 的大规模多语言至英语语音翻译 (S2ST) 语料库，可以从 21 种语言中提取平行的语句级别的 S2ST 对，并用最先进的 TTS 系统将 CoVoST 2 的翻译文本合成语音。此外，研究构建了基线多语言直接 S2ST 模型和串联 S2ST 模型，并对该语料库的有效性进行了验证。

Jan, 2022

语音翻译的大规模自监督和半监督学习

通过利用大量未标记的语音和文本数据（包括 Libri-Light 语音音频语料库和 CommonCrawl 语言建模）的预训练和自我训练，我们的实验结果表明，在不利用监督学习数据的前提下，通过 wav2vec 2.0 预训练、自我训练和配合语言模型的方法，能够使所有四个 CoVoST 2 语言对的 BLEU 平均值提高 2.6。代码和模型将公开发布。

Apr, 2021

Common Voice: 一個大規模多語言語音語料庫

Common Voice 是一个为语音技术研究和开发设计的大型多语言转录音频资源，采用众包方式进行数据收集和验证，目前包括 29 种语言，收集了超过 2500 小时的音频数据，实现了多语言端到端的自动语音识别。

Dec, 2019

SpeechMatrix: 大规模挖掘的多语音言翻译语料库

本文介绍了一个用于多语言演讲语音翻译研究的大规模多语言语音语料库 SpeechMatrix，并建立了基于演讲记录的平行语音翻译模型，探讨了少有的多语言语音翻译问题和一些基于模型先训练和混合专家使用的解决方案。

Nov, 2022

用于语音识别和翻译的多语种 TEDx 语料库

我们提供了一个多语言 TEDx 语料库，支持语音识别和语音翻译的研究，可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合，提供了 8 个源语言，我们将转录分割成句子，并将它们与源语言音频和目标语言翻译对齐。此外，我们提供基线模型，包括多语种模型，以提高低资源语种的翻译性能。

Feb, 2021

MaSS：基于圣经的大型干净语言对齐口语预料库

提出 MaSS 数据集，基于世界各地包含该圣经的语言录制了 8,130 个平行口语表达，通过样本质量的人工评估，证明了该数据集对构建自然语言处理系统（尤其是多语言间的语音转写和翻译任务）的有效性。

Jul, 2019

GigaST：一份拥有 10,000 小时的伪语音翻译语料库

本文介绍 GigaST 数据集，它是一个大规模的伪语音转换语料库，通过翻译英文 ASR 语料库 GigaSpeech 到德语和中文等加入大量的机器翻译的数据用于训练，最终的 ST 模型在 MuST-C 英语 - 德语基准测试集中获得了最新的最好成果。

Apr, 2022

多语言语音翻译至多个目标语言

提出了一种支持多个目标语言的多语言语音翻译模型，采用语音单元和语音合成器进行多语言扩展，并在基准翻译测试集中表现优于双语模型。

Jul, 2023

将语音技术扩展至 1000 多种语言

通过基于宗教文本的新数据集和有效利用自监督学习的方法，Massively Multilingual Speech（MMS）项目构建了包括 1406 种语言的预训练 wav2vec 2.0 模型、1107 种语言的单一多语言自动语音识别模型、以及相同数量的语音合成模型和 4017 种语言的语言识别模型。实验结果表明，我们的多语种语音识别模型在 FLEURS 基准测试的 54 种语言上使 Whisper 的单词错误率减少了一半以上，同时只使用了一小部分标记数据进行训练。

May, 2023