发布 CoVoST 2 语料库,其中包括来自 21 种语言翻译成英语和从英语翻译成 15 种语言的大规模多语言语音翻译语料库,此数据集是目前总量最大、语言覆盖面最广的公开数据集,同时提供 extensive 的语音识别、双语和多语言机器翻译及语音翻译的基线结果。
Jul, 2020
该论文介绍了一种名为 CVSS 的大规模多语言至英语语音翻译 (S2ST) 语料库,可以从 21 种语言中提取平行的语句级别的 S2ST 对,并用最先进的 TTS 系统将 CoVoST 2 的翻译文本合成语音。此外,研究构建了基线多语言直接 S2ST 模型和串联 S2ST 模型,并对该语料库的有效性进行了验证。
Jan, 2022
我们提供了一个多语言 TEDx 语料库,支持语音识别和语音翻译的研究,可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合,提供了 8 个源语言,我们将转录分割成句子,并将它们与源语言音频和目标语言翻译对齐。此外,我们提供基线模型,包括多语种模型,以提高低资源语种的翻译性能。
Feb, 2021
MuAViC 是首个开放的多语言视听数据集,共提供了 1200 小时覆盖 9 种语言的视听数据,可应用于嘈杂环境下的语音识别和翻译模型构建。
Mar, 2023
本研究通过收集欧洲议会在 2008 年至 2012 年期间进行的演讲,创建了一个新型的包括 6 种欧洲语言互相翻译的语音和文本样本的多语种 SLT 语料库 Europarl-ST,并展示了一系列的语音识别、机器翻译和口语翻译实验。
Nov, 2019
Common Voice 是一个为语音技术研究和开发设计的大型多语言转录音频资源,采用众包方式进行数据收集和验证,目前包括 29 种语言,收集了超过 2500 小时的音频数据,实现了多语言端到端的自动语音识别。
Dec, 2019
提出了一种支持多个目标语言的多语言语音翻译模型,采用语音单元和语音合成器进行多语言扩展,并在基准翻译测试集中表现优于双语模型。
Jul, 2023
本文介绍 GigaST 数据集,它是一个大规模的伪语音转换语料库,通过翻译英文 ASR 语料库 GigaSpeech 到德语和中文等加入大量的机器翻译的数据用于训练,最终的 ST 模型在 MuST-C 英语 - 德语基准测试集中获得了最新的最好成果。
Apr, 2022
通过先前训练好的自动语音识别 (ASR) 和机器翻译 (MT) 模块的结合,本研究提出了一种名为 COSTA 的端到端模型架构,用于印度语言到英文文本的混合语言实时翻译,并发布出相关评估基准。COSTA 在混合语言的孟加拉语、印地语、马拉地语和泰卢固语到英文文本的翻译中,相对于其他基线模型表现出显著优势,BLEU 点数提高达 3.5。
Jun, 2024
通过利用大量未标记的语音和文本数据(包括 Libri-Light 语音音频语料库和 CommonCrawl 语言建模)的预训练和自我训练,我们的实验结果表明,在不利用监督学习数据的前提下,通过 wav2vec 2.0 预训练、自我训练和配合语言模型的方法,能够使所有四个 CoVoST 2 语言对的 BLEU 平均值提高 2.6。代码和模型将公开发布。
Apr, 2021