一千个播客：葡语口语文件语料库

介绍了 VoxPopuli，它是一个大规模的多语种语音语料库，提供包含 23 种语言的 100K 小时未标记语音数据，以及 16 种语言中的 1.8K 小时转录演讲和对应的 5 种其他语言的 5.1K 小时口译。该语料库还提供了语音识别基线和验证了 VoxPopuli 未标记数据在半监督学习中的多用途性。语料库将在该网址下公开发布。

Jan, 2021

MaSS：基于圣经的大型干净语言对齐口语预料库

提出 MaSS 数据集，基于世界各地包含该圣经的语言录制了 8,130 个平行口语表达，通过样本质量的人工评估，证明了该数据集对构建自然语言处理系统（尤其是多语言间的语音转写和翻译任务）的有效性。

Jul, 2019

低资源语言的音标丰富语料构建

本研究介绍了一种用于创建巴西葡萄牙语语音覆盖度广泛的语音语料库的新方法，并提出了基于声音 - 口型语音特征的新的音素分类方法，通过使用该算法，我们使得与目前可用的语音丰富语料库相比，一种样本中不同音素的百分比增加了 55.8％。

Feb, 2024

计算语言学文档实验用的极低资源语音语料库

这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库，在几乎零的资源条件下构建了该语料库，并利用其中的数据完成了口语术语发现。该论文讨论了如何收集，清理和处理数据，并将该数据集提供给社区进行可重现的计算语言文献研究和评估。

Oct, 2017

VoxLingua107：一个口语识别数据集

本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语，并从 YouTube 中检索视频来提取具有语音的视频片段，并使用语音活动检测和说话人分离提取包含语音的视频片段，最终构建了可用于多种口语识别任务的语言识别模型，自动检索的数据结果优于使用手工标记的专有数据集。

Nov, 2020

用于语音识别和翻译的多语种 TEDx 语料库

我们提供了一个多语言 TEDx 语料库，支持语音识别和语音翻译的研究，可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合，提供了 8 个源语言，我们将转录分割成句子，并将它们与源语言音频和目标语言翻译对齐。此外，我们提供基线模型，包括多语种模型，以提高低资源语种的翻译性能。

Feb, 2021

DORE: 用于葡萄牙语定义生成的数据集

通过引入包含超过 100,000 个定义的 DORE 数据集，并对其进行评估，本研究填补了葡萄牙语领域中的定义建模数据集的空白，并报道了基于深度学习的定义建模模型的结果，该数据集和本文的发现将促进对葡萄牙语的更广泛的研究和学习。

Mar, 2024