从英语到更多语言：参数高效的模型重编程用于跨语言语音识别

Jan, 2023

从英语到更多语言：参数高效的模型重编程用于跨语言语音识别

From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition

Chao-Han Huck Yang, Bo Li, Yu Zhang, Nanxin Chen, Rohit Prabhavalkar...

TL;DR使用神经模型重编程的参数高效学习框架，可在跨语音识别中重新利用训练良好的英文自动语音识别模型，实现大规模预训练 ASR 成功，提高了训练效率。

Abstract

In this work, we propose a new parameter-efficient learning framework based on neural model reprogramming for cross-lingual speech recognition

parameter-efficient learning framework neural model reprogramming cross-lingual speech recognition multilingual librispeech speech asr model

发现论文，激发创造

大规模多语言自动语音识别：50 种语言，1 个模型，10 亿参数

本文探讨了利用单一声学模型进行多种语言训练，以提高低资源语言的自动语音识别性能，并简化支持多种语言的 ASR 系统的部署。作者在 51 种语言上进行广泛的基准测试和比较，表明与单语言训练相比，多语言训练的 ASR 模型可以提高识别性能，特别是对于低资源语言。与单语言基线相比，联合模型、具有语言输入的联合模型和多头模型的平均 WER 相对减少 20.9％、23％和 28.8％。据我们所知，这是第一次研究超过 50 种语言和超过 16,000 小时声音跨其的多语言 ASR 的大规模研究。

Jul, 2020

自动语音识别多语言模型综述

该论文研究了基于跨语言转移的多语种自动语音识别模型的最新进展和最佳实践，并探讨了未来的研究方向和建议。

Feb, 2022

低预算下的语音识别迁移学习

通过模型自适应的迁移学习方法，将原本用于英语自动语音识别的 Wav2Letter 卷积神经网络适配到德语 ASR 模型的训练中，实现了在受限 GPU 内存、吞吐量和训练数据的情况下，基于消费级硬件实现更快的训练，同时减少了训练数据量，从而降低了在其他语言中训练 ASR 模型的成本。网络层的微小调整已经足够实现较好的性能。

Jun, 2017

利用母语信息提高口音识别能力

本研究提出一种基于使用原生语言（西班牙语和印度语）预训练的端到端循环神经网络多任务学习模型，成功实现对英语口音的识别，相比于其他训练方法，此方法在减小语音中字符错误率方面表现更加优异。

Apr, 2019

面向低资源多语言语音识别的自适应激活网络

本篇论文提出了一种适应性激活网络，用于深度学习 ASR 模型的上层，并将不同的激活函数应用于不同的语言，通过交叉语言学习和多语言学习优化模型，达到了在 IARPA Babel 数据集上超越传统的基于瓶颈特征和从头训练两种方法的效果提升，结合交叉语言学习和多语言学习可以进一步提高多语言语音识别的性能。

May, 2022

利用参数高效的迁移学习进行多语言文本到语音调整

在多种语言环境中，为了有效地合成语音，开发一个能够应对不同语言的语音合成模型是具有挑战性的。本文提出了一种在多语言语音合成中，将参数高效的迁移学习方法（如适配器和超网络）与 TTS 架构集成的方法，并在实验中证明这种方法在性能上能够与全面微调方法相媲美甚至更好，参数数量仅为总参数的约 2.5%。

Jun, 2024

用于口语识别的预训练方法：TalTech 在 OLR 2021 挑战赛中的提交

本文研究了口语语言识别的不同预训练方法，并基于我们在东方语言识别挑战赛 2021 中的提交，参与了有约束和无约束的语言识别的两个任务。我们主要使用 Conformer-based 编码器 - 解码器模型和 XLSR-53 wav2vec2.0 模型作为端到端的系统，这些模型都包含有前置的预训练网络。

May, 2022

高资源语音识别预训练改进低资源语音到文本翻译

本文研究通过使用大量训练数据的自动语音识别任务，对语音翻译进行预训练，以提高低资源环境下的语音翻译性能，其中预训练的声学模型起到了关键的作用，并且可用于不同语言对之间的翻译。经验证本方法效果显著，能够在真实的低资源任务中提高性能。

Sep, 2018

学习跨语言映射提升低资源语音识别的数据增强

利用可学习的跨语言映射和数据增强来提高低资源语言的端到端语音识别准确度。

Jun, 2023

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023