计算语言学文档实验用的极低资源语音语料库

Oct, 2017

计算语言学文档实验用的极低资源语音语料库

A Very Low Resource Language Speech Corpus for Computational Language Documentation Experiments

P. Godard, G. Adda, M. Adda-Decker, J. Benjumea, L. Besacier...

TL;DR这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库，在几乎零的资源条件下构建了该语料库，并利用其中的数据完成了口语术语发现。该论文讨论了如何收集，清理和处理数据，并将该数据集提供给社区进行可重现的计算语言文献研究和评估。

Abstract

Most speech and language technologies are trained with massive amounts of speech and text information. However, most of the world languages do not have such resources or stable orthography. Systems constructed under these almost zero resource conditions are not only promising for

speech technology computational language documentation zero resource conditions speech corpus spoken term discovery

发现论文，激发创造

低资源语言的音标丰富语料构建

本研究介绍了一种用于创建巴西葡萄牙语语音覆盖度广泛的语音语料库的新方法，并提出了基于声音 - 口型语音特征的新的音素分类方法，通过使用该算法，我们使得与目前可用的语音丰富语料库相比，一种样本中不同音素的百分比增加了 55.8％。

Feb, 2024

日耳曼语系低资源语言和方言语料库调查

这篇论文对德国 ic 低资源语言变体的可用语料库进行了系统性调查，发现手工注释的语言资源稀缺，大多数仅涵盖形态和句法，但活跃的研究社区正在不断发展。作者还特意分享了超过 80 个语料库的大概率浏览与查看。

Apr, 2023

零资源语音挑战赛 2021: 口语语言建模

该研究提出了 Zero Resource Speech Challenge 2021 语音挑战赛，要求参与者直接从音频中学习语言模型，无需任何文本或标签，并提供了一种基于对比性预测编码器、量化器和标准语言模型的管道基线系统。

Apr, 2021

自我监督的语言学习：从零语音资源挑战中的经验教训

通过 Zero Resource Speech Challenge 系列自 2015 年以来的六个版本的总结，讨论了自我监督或无监督机器学习的最新进展，并重点介绍了声学单元发现，口语术语发现，离散重构和口语语言建模四项任务的相关度量标准和基准，促进了模型比较和累积性进展。

Oct, 2022

构建非洲之声

本研究聚焦于低资源非洲语言语音合成，着重于从语料库创作到 TTS 系统的共享和部署，通过参与式方法建立新的数据集和数据挖掘，发现即使在次优环境下录制 25 分钟的语音也能生成可听懂的语音，并为 12 种非洲语言提供了语音数据、代码和训练好的语音以支持研究人员和开发者。

Jul, 2022

自动化语音工具，帮助社区处理受限语料库以推进语言复兴

该研究提出了一种隐私保护的工作流程，通过集成语音活动检测（VAD）、自动语音识别（ASR）等技术，提高对受保护语言音频数据的注释效率。该流程旨在为那些使用英语等共同语言进行元语言评论和提问的语音录音解决元语言转录上的问题。研究结果表明匹配得当的这种方法可以在保持数据私密原则的前提下加速记录的元语言转录，并有效减少了数据浏览和筛选的时间。

Apr, 2022

用于语音识别和翻译的多语种 TEDx 语料库

我们提供了一个多语言 TEDx 语料库，支持语音识别和语音翻译的研究，可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合，提供了 8 个源语言，我们将转录分割成句子，并将它们与源语言音频和目标语言翻译对齐。此外，我们提供基线模型，包括多语种模型，以提高低资源语种的翻译性能。

Feb, 2021

使用法语翻译扩充 Librispeech：一种用于直接语音翻译评估的多模态语料库

本文介绍了使用 LibriSpeech 增强现有单语语料库的方法，建立起一种包含源语言中的语音与目标语言中的文本的大型开放式平行语料库，并给出了相应的处理细节和手动评估结果，该平行语料库可以用于直接语音翻译或其他口语翻译实验。

Feb, 2018

2021 年零资源语音基准：自监督口语建模的度量和基线

本文介绍了一项新的无监督任务：口语语言建模并给出了 Zero Resource Speech Benchmark 2021，使用 4 个黑盒子零炮弹指标对 4 个语言层面的学习模型的质量进行测量，包括语音、词汇、语法和语义，并基于 CPC、聚类和语言建模的三个无监督系统的复合基线的结果和分析。该语言建模基于聚类学习产生的伪文本，表明了从原始语音中建立口语语言建模的可行性，但这种简单管道与文本为基础的 “顶线” 系统相比，性能较差，需要使用更复杂的端到端模型来探索。

Nov, 2020

NusaWrites：为代表性和极度资源匮乏的语言构建高质量语料库

对印尼本土语言进行案例研究的结果表明，原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质，有助于推广自然语言处理技术到较少研究的语言领域。

Sep, 2023