GigaSpeech 2：用于低资源语种的演进、大规模、多领域的ASR语料库的自动爬取、转写和优化

Jun, 2024

GigaSpeech 2：用于低资源语种的演进、大规模、多领域的ASR语料库的自动爬取、转写和优化

GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement

HTML

PDF

Yifan Yang, Zheshu Song, Jianheng Zhuo, Mingyu Cui, Jinpeng Li...

TL;DR这篇论文介绍了GigaSpeech 2，一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库，它不依赖于配对的语音和文本数据。该论文还介绍了一个自动化的数据爬取、转录和标签优化流程，以及通过修改的Noisy Student Training来进一步提高模型性能。实验结果证明了该语料库高质量和广泛适用性，并且相比于Whisper large-v3模型，基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上可以将词错误率降低25%至40%。同时，与商业服务相比，基于GigaSpeech 2训练的ASR模型也能取得更好的性能。我们相信我们引入的语料库和流程将为低资源语音识别开辟新的研究途径并极大地促进该领域的研究。

Abstract

The evolution of speech technology has been spurred by the rapid increase in dataset sizes. Traditional speech models generally depend on a large amount of labeled training data, which is scarce for →

发现论文，激发创造

大规模多语言自动语音识别：50种语言，1个模型，10亿参数

本文探讨了利用单一声学模型进行多种语言训练，以提高低资源语言的自动语音识别性能，并简化支持多种语言的ASR系统的部署。作者在51种语言上进行广泛的基准测试和比较，表明与单语言训练相比，多语言训练的ASR模型可以提高识别性能，特别是对于低资源语言。与单语言基线相比，联合模型、具有语言输入的联合模型和多头模型的平均WER相对减少20.9％、23％和28.8％。据我们所知，这是第一次研究超过50种语言和超过16,000小时声音跨其的多语言ASR的大规模研究。

Jul, 2020

LRSpeech: 极低资源语音合成与识别

本文介绍了一种名为 LRSpeech 的 TTS 和 ASR 系统，能够在极低资源的情况下支持资料匮乏的语言，并通过三个关键技术来优化模型，包括基于富资源语言的预训练和微调、TTS 和 ASR 之间的双重转换以及知识蒸馏等。实验证明 LRSpeech 在语音合成方面达到了工业部署的要求，在语音识别方面达到了很好的识别精度，并且需要非常少的训练数据。

Aug, 2020

GigaSpeech: 一个拥有10,000小时转录音频的不断发展的多领域ASR语料库

本论文介绍了一个新的、多领域的英语语音识别语料库——GigaSpeech，它包含了来自有声读物、播客和YouTube等各种领域的高质量标记音频，提供了五个不同大小的训练子集，并提出了一种新的强制对齐和分割管道来创建适用于语音识别训练的句子段，并过滤出低质量的转录片段。最终在Athena、ESPnet、Kaldi和Pika等流行的语音识别工具包上，提供了基准系统。

Jun, 2021

BigSSL：大规模半监督学习在自动语音识别中的探索前沿

使用预先训练、自我训练和模型规模扩大的方法，利用大型、多样化的未标记数据集，我们取得了一系列使用巨型自动语音识别（ASR）模型的结果，表明它可以在极大的任务效率下使用仅有少量标记数据来实现最先进性能。在一个含有34k个小时标记数据的ASR任务中，通过微调一个80亿参数的预训练Conformer模型，我们可以实现仅有3％的训练数据即可达到SoTA性能，并且使用完整的训练集可以显著提高SoTA。我们还报告了使用大型预训练和自我训练模型对多个下游任务的通用收益，涵盖了许多语音领域的公共基准测试，并跨越了多个数据集大小的数量级，并利用预训练网络的学习表示在非ASR任务中取得了SoTA结果。

Sep, 2021

ASR2K：2千个左右的语言的语音识别（无需音频）

提出了一种语音识别流程，可以利用n-gram统计信息或原始文本数据集，在没有音频文件的情况下，使用多语种模型构建语音识别流程，并在1909种语言上进行了测试。

Sep, 2022

Master-ASR：用模块化学习实现跨语言可扩展性和低资源适应性的自动语音识别

提出了一种名为 METHODNS 的自动语音识别框架，通过模块化的方法实现低资源适应能力和多语言可扩展性，能够显著提高多语言和低资源语音识别的性能。

Jun, 2023

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了Whisper这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了DistilWhisper方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的ASR性能。

May, 2024

启用低资源语言的ASR：一个全面的数据集创建方法

本研究介绍了一种用于从有声读物生成ASR训练数据集的新型流程，以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本，并将其分割成适合ASR训练的长度，简化了资源稀缺语言中ASR系统的数据准备工作，并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言，不仅解决了数据匮乏问题，还提高了低资源语言的ASR模型性能。

Jun, 2024

MSR-86K：一个包含86,300小时语音转换文本的多语种演变语料库，用于语音识别研究

该论文介绍了MSR-86K，这是一个逐渐增长的大规模多语言语音识别研究语料库，由YouTube上公开可访问的视频转录数据组成，包括15种语言和总共86300小时的ASR数据。同时，该论文还介绍了如何使用MSR-86K语料库和其他开源语料库来训练一个与Whisper相媲美的强大的多语言语音识别模型。我们将在HuggingFace上公开发布MSR-86K，相信这样一个大规模的语料库将为多语言语音识别的研究开辟新的道路。

Jun, 2024

通过多功能TTS增强低资源ASR：弥合数据鸿沟

本研究解决了自动语音识别（ASR）在低资源环境中的表现不足问题，尤其是在方言、口音和少数语言的应用中。论文提出了一种利用强大的文本到语音（TTS）模型进行ASR数据增强的方法，并通过大量实验验证了该方法的有效性与广泛的应用前景。研究表明，文本多样性、说话人多样性及合成数据量是影响ASR性能的关键因素，特别是首次探讨了文本多样性对性能提升的影响。

Oct, 2024