利用母语信息提高口音识别能力

Apr, 2019

Leveraging native language information for improved accented speech recognition

Shahram Ghorbani, John H.L. Hansen

TL;DR本研究提出一种基于使用原生语言（西班牙语和印度语）预训练的端到端循环神经网络多任务学习模型，成功实现对英语口音的识别，相比于其他训练方法，此方法在减小语音中字符错误率方面表现更加优异。

Abstract

Recognition of accented speech is a long-standing challenge for automatic speech recognition (ASR) systems, given the increasing worldwide population of bi-lingual speakers with English as their second language. If we consider foreign-→

accented speech automatic speech recognition recurrent neural network multi-task learning native language

发现论文，激发创造

基于数据及知识驱动的多语言训练方法，提升印度语言语音识别系统的性能

使用数据和知识驱动的方法结合多语言语音数据来进行自动语音识别系统的多语言训练，并在低资源和中资源运用 DNN 的分层映射技术和多任务 DNN 模型，分别在印度语种中取得 9.66％ ~ 27.24％不等的相对准确率提升。

Jan, 2022

跨口音语音识别上的快速适应学习

研究了方言对同一语言单词发音的影响，提出了一种基于模型对抗元学习算法的跨方言英语语音识别任务，通过实验表明该方法显著优于联合训练。

Mar, 2020

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

面向低资源多语言语音识别的自适应激活网络

本篇论文提出了一种适应性激活网络，用于深度学习 ASR 模型的上层，并将不同的激活函数应用于不同的语言，通过交叉语言学习和多语言学习优化模型，达到了在 IARPA Babel 数据集上超越传统的基于瓶颈特征和从头训练两种方法的效果提升，结合交叉语言学习和多语言学习可以进一步提高多语言语音识别的性能。

May, 2022

基于流式端到端模型的大规模多语言语音识别

本文介绍了一种使用条件向量和针对语言的适配器层结合的多语言端到端模型，取得了比单语言模型和传统模型都更低的语音识别误差率。

Sep, 2019

高资源语音识别预训练改进低资源语音到文本翻译

本文研究通过使用大量训练数据的自动语音识别任务，对语音翻译进行预训练，以提高低资源环境下的语音翻译性能，其中预训练的声学模型起到了关键的作用，并且可用于不同语言对之间的翻译。经验证本方法效果显著，能够在真实的低资源任务中提高性能。

Sep, 2018

使用多个 softmax 上的注意力的流式双语端到端自动语音识别模型

本文介绍了一种新颖的双语端到端模型，通过共享编码器和预测网络，并通过自注意机制组合语言特定的联合网络，实现了单一神经模型对多种语言的识别和支持语言之间的动态切换，相比传统双语基线模型，该方法在印地语、英语和混合代码测试集上分别降低了 13.3%、8.23% 和 1.3% 的词误差率。

Jan, 2024

适用于印度语的代码转换和混合语音识别

本研究通过比较使用多语种和单语种模型进行语音识别的表现，提出了一种基于 wav2vec 2.0 的端到端多语种语音识别和混合语言识别技术，取得了印度诸多语言语音识别的较好效果。

Mar, 2022

自动语音识别多语言模型综述

该论文研究了基于跨语言转移的多语种自动语音识别模型的最新进展和最佳实践，并探讨了未来的研究方向和建议。

Feb, 2022

从英语到更多语言：参数高效的模型重编程用于跨语言语音识别

使用神经模型重编程的参数高效学习框架，可在跨语音识别中重新利用训练良好的英文自动语音识别模型，实现大规模预训练 ASR 成功，提高了训练效率。

Jan, 2023