GigaST:一份拥有 10,000 小时的伪语音翻译语料库
本论文介绍了一个新的、多领域的英语语音识别语料库 ——GigaSpeech,它包含了来自有声读物、播客和 YouTube 等各种领域的高质量标记音频,提供了五个不同大小的训练子集,并提出了一种新的强制对齐和分割管道来创建适用于语音识别训练的句子段,并过滤出低质量的转录片段。最终在 Athena、ESPnet、Kaldi 和 Pika 等流行的语音识别工具包上,提供了基准系统。
Jun, 2021
这篇论文介绍了 GigaSpeech 2,一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库,它不依赖于配对的语音和文本数据。该论文还介绍了一个自动化的数据爬取、转录和标签优化流程,以及通过修改的 Noisy Student Training 来进一步提高模型性能。实验结果证明了该语料库高质量和广泛适用性,并且相比于 Whisper large-v3 模型,基于 GigaSpeech 2 训练的 ASR 模型在泰语、印尼语和越南语的测试集上可以将词错误率降低 25% 至 40%。同时,与商业服务相比,基于 GigaSpeech 2 训练的 ASR 模型也能取得更好的性能。我们相信我们引入的语料库和流程将为低资源语音识别开辟新的研究途径并极大地促进该领域的研究。
Jun, 2024
本文介绍了 BSTC (Baidu Speech Translation Corpus) 数据集,该数据集基于一组讲座授权视频构建,包括约 68 小时的普通话数据、它们的手动转录和英语翻译,以及自动语音识别 (ASR) 模型的自动转录。我们进一步邀请了三名经验丰富的口译员在模拟会议场景中同时口译测试讲座。预计该语料库将促进自动同声传译的研究以及实用系统的开发。我们组织了同声传译任务,并使用该语料库评估了自动同声传译系统。
Apr, 2021
提供了一份瑞士德语语音的语料库,包含了来自各个方言区的 316 名发言者的 343 小时语音数据,并提供了这些发言者的方言、年龄和性别信息。该语料库适用于自动语音识别、文本到语音、方言识别和说话人识别等应用领域,并提供了训练集、验证集和测试集,训练出的模型在测试集上取得了较好的效果。
May, 2023
发布 CoVoST 2 语料库,其中包括来自 21 种语言翻译成英语和从英语翻译成 15 种语言的大规模多语言语音翻译语料库,此数据集是目前总量最大、语言覆盖面最广的公开数据集,同时提供 extensive 的语音识别、双语和多语言机器翻译及语音翻译的基线结果。
Jul, 2020
本文介绍了 CoVoST—— 一个多语言的语音 - 文本翻译语料库,并提供了详细的数据集创建方法、数据质量实证和多语言翻译模型的前期实验成果。
Feb, 2020
我们提供了一个多语言 TEDx 语料库,支持语音识别和语音翻译的研究,可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合,提供了 8 个源语言,我们将转录分割成句子,并将它们与源语言音频和目标语言翻译对齐。此外,我们提供基线模型,包括多语种模型,以提高低资源语种的翻译性能。
Feb, 2021
该研究找出了语音到语音翻译领域所面临的主要限制是缺乏合适的培训数据。为了解决这个问题,研究人员创建了一个公开可用的语音到语音训练语料库 ——LibriS2S。基于这个语料库,提出了基于 FastSpeech 2 模型的新文本到语音模型,以及如何使模型直接根据源语言的发音来生成语音信号。
Apr, 2022
该论文介绍了一种名为 CVSS 的大规模多语言至英语语音翻译 (S2ST) 语料库,可以从 21 种语言中提取平行的语句级别的 S2ST 对,并用最先进的 TTS 系统将 CoVoST 2 的翻译文本合成语音。此外,研究构建了基线多语言直接 S2ST 模型和串联 S2ST 模型,并对该语料库的有效性进行了验证。
Jan, 2022