Libri-Light: 一项有限或无监督 ASR 基准测试

Dec, 2019

Libri-Light: 一项有限或无监督 ASR 基准测试

Libri-Light: A Benchmark for ASR with Limited or No Supervision

Jacob Kahn, Morgane Rivière, Weiyi Zheng, Evgeny Kharitonov, Qiantong Xu...

TL;DR提供了一个适用于有限或无监督语音识别训练的口语英语音频集合，其中包含来自 LibriVox 项目的开源有声读物，已使用语音活动检测进行段分割，并标记有 SNR，说话者 ID 和流派描述，同时提供了基线系统和评估指标，分为三个设置进行评估。

Abstract

We introduce a new collection of spoken english audio suitable for training speech recognition systems under limited or no supervision. It is derived from open-source audio books from the →

spoken english audio speech recognition systems librivox project voice activity detection evaluation metrics

发现论文，激发创造

半监督学习在自动语音识别中的极限挑战

该研究采用半监督学习、自动语音识别和噪声模型训练等技术提高 LibriSpeech 数据集的识别准确率，最终实现了 1.4%/2.6% 的识别误差，相比当前最先进水平 1.7%/ 3.3%，表现出显著的提升。

Oct, 2020

大规模弱监督进行稳健语音识别

研究了训练简单的语音处理系统预测互联网音频大量转录的能力，在 680,000 小时的多语言和多任务监督的基础上，生成的模型具有很好的泛化能力，并且通常与之前的完全监督结果竞争，但在零次传输设置下不需要进行任何微调，与人类相比，模型的准确性和稳健性接近，并且同时发布了模型和推理代码，作为进一步稳健语音处理工作的基础。

Dec, 2022

零资源语音挑战赛 2021: 口语语言建模

该研究提出了 Zero Resource Speech Challenge 2021 语音挑战赛，要求参与者直接从音频中学习语言模型，无需任何文本或标签，并提供了一种基于对比性预测编码器、量化器和标准语言模型的管道基线系统。

Apr, 2021

LibriTTS：从 LibriSpeech 中衍生的用于文本转语音的语料库

该论文提出了一个新的语音语料库 LibriTTS，用于文本转语音，并展示了该语料库训练出的神经完整端到端的 TTS 模型在自然度方面的评估结果不低于 4.0。

Apr, 2019

LibriVoxDeEn: 一个用于德语到英语语音翻译和德语语音识别的语料库

该研究提供一个德语语音、德语文本和英语翻译的平行语料库，以德语有声读物为基础，包括 110 小时的音频材料，对齐了超过 50k 句平行句子，并且提供了更大的数据集，包括 547 小时的德语语音对齐了德语文本，同时为德语语音识别和德语到英语的端到端翻译提供了大量的资源。

Oct, 2019

使用法语翻译扩充 Librispeech：一种用于直接语音翻译评估的多模态语料库

本文介绍了使用 LibriSpeech 增强现有单语语料库的方法，建立起一种包含源语言中的语音与目标语言中的文本的大型开放式平行语料库，并给出了相应的处理细节和手动评估结果，该平行语料库可以用于直接语音翻译或其他口语翻译实验。

Feb, 2018

朝向无需发音模型的无监督语音识别

本研究采用不依赖音素词典的新方法，通过仅包含高频英语词汇的语料库，在没有配对语音和文字数据的情况下，实现了近 20% 的词错误率，并证明了基于联合语音到语音和文本到文本的标记填充技术，使得无监督语音识别系统的性能超过了直接分布匹配方法。

Jun, 2024

自我监督的语言学习：从零语音资源挑战中的经验教训

通过 Zero Resource Speech Challenge 系列自 2015 年以来的六个版本的总结，讨论了自我监督或无监督机器学习的最新进展，并重点介绍了声学单元发现，口语术语发现，离散重构和口语语言建模四项任务的相关度量标准和基准，促进了模型比较和累积性进展。

Oct, 2022

Libri-Adapt: 用于无监督领域自适应的新语音数据集

本文介绍了一个新的数据集 Libri-Adapt，它是 LibriSpeech 语料库的扩展，包含来自 72 个不同领域的英语语音，可以支持语音识别模型的无监督领域自适应研究，并提供基线结果来量化这些领域转移对 Mozilla DeepSpeech2 ASR 模型的影响。

Sep, 2020

启用低资源语言的 ASR：一个全面的数据集创建方法

本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程，以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本，并将其分割成适合 ASR 训练的长度，简化了资源稀缺语言中 ASR 系统的数据准备工作，并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言，不仅解决了数据匮乏问题，还提高了低资源语言的 ASR 模型性能。

Jun, 2024