CoVoST 2 和大规模多语音言语音到文本翻译
本文介绍了 CoVoST—— 一个多语言的语音 - 文本翻译语料库,并提供了详细的数据集创建方法、数据质量实证和多语言翻译模型的前期实验成果。
Feb, 2020
该论文介绍了一种名为 CVSS 的大规模多语言至英语语音翻译 (S2ST) 语料库,可以从 21 种语言中提取平行的语句级别的 S2ST 对,并用最先进的 TTS 系统将 CoVoST 2 的翻译文本合成语音。此外,研究构建了基线多语言直接 S2ST 模型和串联 S2ST 模型,并对该语料库的有效性进行了验证。
Jan, 2022
通过利用大量未标记的语音和文本数据(包括 Libri-Light 语音音频语料库和 CommonCrawl 语言建模)的预训练和自我训练,我们的实验结果表明,在不利用监督学习数据的前提下,通过 wav2vec 2.0 预训练、自我训练和配合语言模型的方法,能够使所有四个 CoVoST 2 语言对的 BLEU 平均值提高 2.6。代码和模型将公开发布。
Apr, 2021
Common Voice 是一个为语音技术研究和开发设计的大型多语言转录音频资源,采用众包方式进行数据收集和验证,目前包括 29 种语言,收集了超过 2500 小时的音频数据,实现了多语言端到端的自动语音识别。
Dec, 2019
本文介绍了一个用于多语言演讲语音翻译研究的大规模多语言语音语料库 SpeechMatrix,并建立了基于演讲记录的平行语音翻译模型,探讨了少有的多语言语音翻译问题和一些基于模型先训练和混合专家使用的解决方案。
Nov, 2022
我们提供了一个多语言 TEDx 语料库,支持语音识别和语音翻译的研究,可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合,提供了 8 个源语言,我们将转录分割成句子,并将它们与源语言音频和目标语言翻译对齐。此外,我们提供基线模型,包括多语种模型,以提高低资源语种的翻译性能。
Feb, 2021
提出 MaSS 数据集,基于世界各地包含该圣经的语言录制了 8,130 个平行口语表达,通过样本质量的人工评估,证明了该数据集对构建自然语言处理系统(尤其是多语言间的语音转写和翻译任务)的有效性。
Jul, 2019
本文介绍 GigaST 数据集,它是一个大规模的伪语音转换语料库,通过翻译英文 ASR 语料库 GigaSpeech 到德语和中文等加入大量的机器翻译的数据用于训练,最终的 ST 模型在 MuST-C 英语 - 德语基准测试集中获得了最新的最好成果。
Apr, 2022
通过基于宗教文本的新数据集和有效利用自监督学习的方法,Massively Multilingual Speech(MMS)项目构建了包括 1406 种语言的预训练 wav2vec 2.0 模型、1107 种语言的单一多语言自动语音识别模型、以及相同数量的语音合成模型和 4017 种语言的语言识别模型。实验结果表明,我们的多语种语音识别模型在 FLEURS 基准测试的 54 种语言上使 Whisper 的单词错误率减少了一半以上,同时只使用了一小部分标记数据进行训练。
May, 2023