Libri-Light: 一项有限或无监督 ASR 基准测试
该研究采用半监督学习、自动语音识别和噪声模型训练等技术提高 LibriSpeech 数据集的识别准确率,最终实现了 1.4%/2.6% 的识别误差,相比当前最先进水平 1.7%/ 3.3%,表现出显著的提升。
Oct, 2020
研究了训练简单的语音处理系统预测互联网音频大量转录的能力,在 680,000 小时的多语言和多任务监督的基础上,生成的模型具有很好的泛化能力,并且通常与之前的完全监督结果竞争,但在零次传输设置下不需要进行任何微调,与人类相比,模型的准确性和稳健性接近,并且同时发布了模型和推理代码,作为进一步稳健语音处理工作的基础。
Dec, 2022
该研究提出了 Zero Resource Speech Challenge 2021 语音挑战赛,要求参与者直接从音频中学习语言模型,无需任何文本或标签,并提供了一种基于对比性预测编码器、量化器和标准语言模型的管道基线系统。
Apr, 2021
该论文提出了一个新的语音语料库 LibriTTS,用于文本转语音,并展示了该语料库训练出的神经完整端到端的 TTS 模型在自然度方面的评估结果不低于 4.0。
Apr, 2019
该研究提供一个德语语音、德语文本和英语翻译的平行语料库,以德语有声读物为基础,包括 110 小时的音频材料,对齐了超过 50k 句平行句子,并且提供了更大的数据集,包括 547 小时的德语语音对齐了德语文本,同时为德语语音识别和德语到英语的端到端翻译提供了大量的资源。
Oct, 2019
本文介绍了使用 LibriSpeech 增强现有单语语料库的方法,建立起一种包含源语言中的语音与目标语言中的文本的大型开放式平行语料库,并给出了相应的处理细节和手动评估结果,该平行语料库可以用于直接语音翻译或其他口语翻译实验。
Feb, 2018
本研究采用不依赖音素词典的新方法,通过仅包含高频英语词汇的语料库,在没有配对语音和文字数据的情况下,实现了近 20% 的词错误率,并证明了基于联合语音到语音和文本到文本的标记填充技术,使得无监督语音识别系统的性能超过了直接分布匹配方法。
Jun, 2024
通过 Zero Resource Speech Challenge 系列自 2015 年以来的六个版本的总结,讨论了自我监督或无监督机器学习的最新进展,并重点介绍了声学单元发现,口语术语发现,离散重构和口语语言建模四项任务的相关度量标准和基准,促进了模型比较和累积性进展。
Oct, 2022
本文介绍了一个新的数据集 Libri-Adapt,它是 LibriSpeech 语料库的扩展,包含来自 72 个不同领域的英语语音,可以支持语音识别模型的无监督领域自适应研究,并提供基线结果来量化这些领域转移对 Mozilla DeepSpeech2 ASR 模型的影响。
Sep, 2020
本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程,以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本,并将其分割成适合 ASR 训练的长度,简化了资源稀缺语言中 ASR 系统的数据准备工作,并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言,不仅解决了数据匮乏问题,还提高了低资源语言的 ASR 模型性能。
Jun, 2024