自动语音识别多语言模型综述

Feb, 2022

A Survey of Multilingual Models for Automatic Speech Recognition

Hemant Yadav, Sunayana Sitaram

TL;DR该论文研究了基于跨语言转移的多语种自动语音识别模型的最新进展和最佳实践，并探讨了未来的研究方向和建议。

Abstract

Although automatic speech recognition (ASR) systems have achieved human-like performance for a few languages, the majority of the world's languages do not have usable systems due to the lack of large speech datasets to train these models. →

发现论文，激发创造

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于9种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

用单个Transformer 实现多语言低资源语音端到端识别

本文利用单个transformer模型及语言符号，针对低资源语言进行多语言语音识别，相较于SHL-MLSTM具有较高的识别精度。

Jun, 2018

多语种图音融合 ASR 与大规模数据增强

本文介绍了一种单一的基于字形的ASR模型，采用标准的混合BLSTM-HMM声学模型以及晶格自由MMI目标进行学习，能对七种语言进行无歧义的识别，并且比每个单一语言的ASR模型表现更佳。同时，我们还评估了多种数据增强的方法，并且展示了这种提出的多语言字素混合ASR与各种数据增强不仅能识别任何训练集内的语言，还能大大提高ASR性能。

Sep, 2019

多语言端到端语音翻译

本文提出了一种简单且有效的多语言端到端语音翻译框架，并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。

Oct, 2019

大规模多语言自动语音识别：50种语言，1个模型，10亿参数

本文探讨了利用单一声学模型进行多种语言训练，以提高低资源语言的自动语音识别性能，并简化支持多种语言的ASR系统的部署。作者在51种语言上进行广泛的基准测试和比较，表明与单语言训练相比，多语言训练的ASR模型可以提高识别性能，特别是对于低资源语言。与单语言基线相比，联合模型、具有语言输入的联合模型和多头模型的平均WER相对减少20.9％、23％和28.8％。据我们所知，这是第一次研究超过50种语言和超过16,000小时声音跨其的多语言ASR的大规模研究。

Jul, 2020

跨语言声学-语音相似度对多语种语音识别的影响研究

本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性，通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式，并通过熵分析发现少重叠语音的语言更易于跨语言传输，在融合单语言模型方面取得了相对于单语言识别的8％的改进。

Jul, 2022

跨语言知识转移和迭代伪标注没有包括专有术语或不必要的解释适用于使用转录器的低资源语音识别

该研究旨在通过跨语言知识转移和迭代伪标注的方法来提高语音识别系统对低资源语言的准确性，结果表明，使用这两种技术，可将错误率降低35%。

May, 2023

学习跨语言映射提升低资源语音识别的数据增强

利用可学习的跨语言映射和数据增强来提高低资源语言的端到端语音识别准确度。

Jun, 2023

Master-ASR：用模块化学习实现跨语言可扩展性和低资源适应性的自动语音识别

提出了一种名为 METHODNS 的自动语音识别框架，通过模块化的方法实现低资源适应能力和多语言可扩展性，能够显著提高多语言和低资源语音识别的性能。

Jun, 2023

多语种语音识别中的低资源语言加权交叉熵

本研究解决了将低资源语言整合到多语种自动语音识别系统中的挑战。通过在持续多语种学习背景下引入加权交叉熵的方法，研究表明该方法对低资源语言的语音识别效果显著提高，词错误率减少了6.69%，并且在六种语言中平均减少了3.29%的错误率，而高资源语言的表现未受到影响。

Sep, 2024