一千个播客:葡语口语文件语料库
介绍了梅克尔播客语料库,这是德语中第一个包含音频,视频和文本模态的单个演讲者语料库,可以用于语音分析和生成中,以及类似的语料库的整理。
May, 2022
介绍了 MOldavian 和 ROmanian 方言语料库(MOROCO),包含来自六个主题的 33564 个文本样本和用于分类任务的标签,使用基于字符串核的浅层方法和包含 Squeeze-and-Excitation 块的字符级卷积神经网络的深层方法进行实验和研究了最具有区分性的特征。
Jan, 2019
本文介绍了 Multilingual LibriSpeech(MLS)数据集,这是一个大型的多语言语音研究语料库,包括 8 种语言,以及相应语言模型和基线自动语音识别模型。该数据集将在 http URL 上免费提供,我们相信它将为 ASR 和 TTS 研究开辟新的途径。
Dec, 2020
介绍了 VoxPopuli,它是一个大规模的多语种语音语料库,提供包含 23 种语言的 100K 小时未标记语音数据,以及 16 种语言中的 1.8K 小时转录演讲和对应的 5 种其他语言的 5.1K 小时口译。该语料库还提供了语音识别基线和验证了 VoxPopuli 未标记数据在半监督学习中的多用途性。语料库将在该网址下公开发布。
Jan, 2021
提出 MaSS 数据集,基于世界各地包含该圣经的语言录制了 8,130 个平行口语表达,通过样本质量的人工评估,证明了该数据集对构建自然语言处理系统(尤其是多语言间的语音转写和翻译任务)的有效性。
Jul, 2019
本研究介绍了一种用于创建巴西葡萄牙语语音覆盖度广泛的语音语料库的新方法,并提出了基于声音 - 口型语音特征的新的音素分类方法,通过使用该算法,我们使得与目前可用的语音丰富语料库相比,一种样本中不同音素的百分比增加了 55.8%。
Feb, 2024
这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库,在几乎零的资源条件下构建了该语料库,并利用其中的数据完成了口语术语发现。该论文讨论了如何收集,清理和处理数据,并将该数据集提供给社区进行可重现的计算语言文献研究和评估。
Oct, 2017
本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语,并从 YouTube 中检索视频来提取具有语音的视频片段,并使用语音活动检测和说话人分离提取包含语音的视频片段,最终构建了可用于多种口语识别任务的语言识别模型,自动检索的数据结果优于使用手工标记的专有数据集。
Nov, 2020
我们提供了一个多语言 TEDx 语料库,支持语音识别和语音翻译的研究,可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合,提供了 8 个源语言,我们将转录分割成句子,并将它们与源语言音频和目标语言翻译对齐。此外,我们提供基线模型,包括多语种模型,以提高低资源语种的翻译性能。
Feb, 2021
通过引入包含超过 100,000 个定义的 DORE 数据集,并对其进行评估,本研究填补了葡萄牙语领域中的定义建模数据集的空白,并报道了基于深度学习的定义建模模型的结果,该数据集和本文的发现将促进对葡萄牙语的更广泛的研究和学习。
Mar, 2024