MLS: 一个大规模的多语言语音研究数据集
维基媒体数据集是一个公开可用的音频和转录汇编,包含来自维基共享资源的 1780 小时(195GB)CC-BY-SA 许可的转录语音,在 77 种不同语言中包含了多种场景和讲话者。每个音频文件都有一个或多个不同语言的转录,使得此数据集适用于训练语音识别、语音翻译和机器翻译模型。
Aug, 2023
我们提出了 MLSUM,这是第一个大规模的多语言摘要数据集,包括五种不同语言的 150 万篇文章 / 摘要对,与来自 CNN / Daily mail 数据集的英文报纸一起,构成一个大规模的多语言数据集,可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析,发现了现有偏见,这促使我们使用多语言数据集。
Apr, 2020
提出 MaSS 数据集,基于世界各地包含该圣经的语言录制了 8,130 个平行口语表达,通过样本质量的人工评估,证明了该数据集对构建自然语言处理系统(尤其是多语言间的语音转写和翻译任务)的有效性。
Jul, 2019
本文介绍了一个新的多说话人英语数据集 用于训练文本转语音模型。该数据集基于处于公共领域的 LibriVox 有声读物和 Project Gutenberg 文本书籍。新数据集包含 10 个说话者的约 292 小时的语音样本,采样率为 44.1 kHz,每个说话者至少有 17 小时的语音。为了选择高质量的语音样本,我们考虑了至少 13 kHz 的信号带宽和至少 32 dB 的信噪比(SNR)的音频记录。该数据集已公开发布在此 http 网址。
Apr, 2021
该论文介绍了 MSR-86K,这是一个逐渐增长的大规模多语言语音识别研究语料库,由 YouTube 上公开可访问的视频转录数据组成,包括 15 种语言和总共 86300 小时的 ASR 数据。同时,该论文还介绍了如何使用 MSR-86K 语料库和其他开源语料库来训练一个与 Whisper 相媲美的强大的多语言语音识别模型。我们将在 HuggingFace 上公开发布 MSR-86K,相信这样一个大规模的语料库将为多语言语音识别的研究开辟新的道路。
Jun, 2024
该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS),该数据集由超过一百万个来自 BBC 的新闻文章组成,跨越 20 种语言,目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务,并在多语言环境下使用各种最先进的摘要技术报告了基准分数。
Feb, 2023
我们提供了一个多语言 TEDx 语料库,支持语音识别和语音翻译的研究,可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合,提供了 8 个源语言,我们将转录分割成句子,并将它们与源语言音频和目标语言翻译对齐。此外,我们提供基线模型,包括多语种模型,以提高低资源语种的翻译性能。
Feb, 2021
我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程,并构建了一个大规模、高质量的音频语言数据集 Auto-ACD,其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务(包括音频语言检索、音频说明和环境分类)上的性能改进,证明了所提出数据集的有效性。此外,我们建立了一个新颖的测试集,并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。
Sep, 2023
本文介绍了使用 LibriSpeech 增强现有单语语料库的方法,建立起一种包含源语言中的语音与目标语言中的文本的大型开放式平行语料库,并给出了相应的处理细节和手动评估结果,该平行语料库可以用于直接语音翻译或其他口语翻译实验。
Feb, 2018