利用声学伪标记预测正向迁移，以改进低资源语音识别

Feb, 2024

利用声学伪标记预测正向迁移，以改进低资源语音识别

Predicting positive transfer for improved low-resource speech recognition using acoustic pseudo-tokens

Nay San, Georgios Paraskevopoulos, Aryaman Arora, Xiluo He, Prabhjot Kaur...

TL;DR通过引入相似、高资源语言的数据，可以提高低资源语言的自动语音识别性能，并且通过计算基于诱导声学单元的序列分布的声学令牌分布相似度 (ATDS)，能够准确预测目标语言的ASR性能。

Abstract

While massively multilingual speech models like wav2vec 2.0 XLSR-128 can be directly fine-tuned for automatic speech recognition (ASR), downstream performance can still be relatively poor on languages that are un

发现论文，激发创造

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于9种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

用单个Transformer 实现多语言低资源语音端到端识别

本文利用单个transformer模型及语言符号，针对低资源语言进行多语言语音识别，相较于SHL-MLSTM具有较高的识别精度。

Jun, 2018

高资源语音识别预训练改进低资源语音到文本翻译

本文研究通过使用大量训练数据的自动语音识别任务，对语音翻译进行预训练，以提高低资源环境下的语音翻译性能，其中预训练的声学模型起到了关键的作用，并且可用于不同语言对之间的翻译。经验证本方法效果显著，能够在真实的低资源任务中提高性能。

Sep, 2018

低资源语音识别预训练的分析

本文探讨了如何提高低资源语言的自动语音翻译质量，研究表明在高资源语言上训练端到端自动语音识别模型可以有效提高自动语音译文质量，作者发现最终自动语音译文质量的最佳预测因素是预训练的ASR模型的词错误率，并且研究发现预训练和数据增强对AST翻译质量的提高是互补的。

Oct, 2019

大规模多语言自动语音识别：50种语言，1个模型，10亿参数

本文探讨了利用单一声学模型进行多种语言训练，以提高低资源语言的自动语音识别性能，并简化支持多种语言的ASR系统的部署。作者在51种语言上进行广泛的基准测试和比较，表明与单语言训练相比，多语言训练的ASR模型可以提高识别性能，特别是对于低资源语言。与单语言基线相比，联合模型、具有语言输入的联合模型和多头模型的平均WER相对减少20.9％、23％和28.8％。据我们所知，这是第一次研究超过50种语言和超过16,000小时声音跨其的多语言ASR的大规模研究。

Jul, 2020

自动语音识别多语言模型综述

该论文研究了基于跨语言转移的多语种自动语音识别模型的最新进展和最佳实践，并探讨了未来的研究方向和建议。

Feb, 2022

跨语言声学-语音相似度对多语种语音识别的影响研究

本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性，通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式，并通过熵分析发现少重叠语音的语言更易于跨语言传输，在融合单语言模型方面取得了相对于单语言识别的8％的改进。

Jul, 2022

Master-ASR：用模块化学习实现跨语言可扩展性和低资源适应性的自动语音识别

提出了一种名为 METHODNS 的自动语音识别框架，通过模块化的方法实现低资源适应能力和多语言可扩展性，能够显著提高多语言和低资源语音识别的性能。

Jun, 2023

低资源印度语言中语音识别模型的调整

通过利用语音和文本资源采用适应和微调技术，提高了印度语言Bengali和Bhojpuri的自动语音识别（ASR）性能，并通过多模态数据了解每种模态在构建可靠ASR方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。

Jul, 2023

GigaSpeech 2：用于低资源语种的演进、大规模、多领域的ASR语料库的自动爬取、转写和优化

这篇论文介绍了GigaSpeech 2，一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库，它不依赖于配对的语音和文本数据。该论文还介绍了一个自动化的数据爬取、转录和标签优化流程，以及通过修改的Noisy Student Training来进一步提高模型性能。实验结果证明了该语料库高质量和广泛适用性，并且相比于Whisper large-v3模型，基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上可以将词错误率降低25%至40%。同时，与商业服务相比，基于GigaSpeech 2训练的ASR模型也能取得更好的性能。我们相信我们引入的语料库和流程将为低资源语音识别开辟新的研究途径并极大地促进该领域的研究。

Jun, 2024