从英语到更多语言:参数高效的模型重编程用于跨语言语音识别
本文探讨了利用单一声学模型进行多种语言训练,以提高低资源语言的自动语音识别性能,并简化支持多种语言的 ASR 系统的部署。作者在 51 种语言上进行广泛的基准测试和比较,表明与单语言训练相比,多语言训练的 ASR 模型可以提高识别性能,特别是对于低资源语言。与单语言基线相比,联合模型、具有语言输入的联合模型和多头模型的平均 WER 相对减少 20.9%、23%和 28.8%。据我们所知,这是第一次研究超过 50 种语言和超过 16,000 小时声音跨其的多语言 ASR 的大规模研究。
Jul, 2020
通过模型自适应的迁移学习方法,将原本用于英语自动语音识别的 Wav2Letter 卷积神经网络适配到德语 ASR 模型的训练中,实现了在受限 GPU 内存、吞吐量和训练数据的情况下,基于消费级硬件实现更快的训练,同时减少了训练数据量,从而降低了在其他语言中训练 ASR 模型的成本。网络层的微小调整已经足够实现较好的性能。
Jun, 2017
本研究提出一种基于使用原生语言(西班牙语和印度语)预训练的端到端循环神经网络多任务学习模型,成功实现对英语口音的识别,相比于其他训练方法,此方法在减小语音中字符错误率方面表现更加优异。
Apr, 2019
本篇论文提出了一种适应性激活网络,用于深度学习 ASR 模型的上层,并将不同的激活函数应用于不同的语言,通过交叉语言学习和多语言学习优化模型,达到了在 IARPA Babel 数据集上超越传统的基于瓶颈特征和从头训练两种方法的效果提升,结合交叉语言学习和多语言学习可以进一步提高多语言语音识别的性能。
May, 2022
在多种语言环境中,为了有效地合成语音,开发一个能够应对不同语言的语音合成模型是具有挑战性的。本文提出了一种在多语言语音合成中,将参数高效的迁移学习方法(如适配器和超网络)与 TTS 架构集成的方法,并在实验中证明这种方法在性能上能够与全面微调方法相媲美甚至更好,参数数量仅为总参数的约 2.5%。
Jun, 2024
本文研究了口语语言识别的不同预训练方法,并基于我们在东方语言识别挑战赛 2021 中的提交,参与了有约束和无约束的语言识别的两个任务。我们主要使用 Conformer-based 编码器 - 解码器模型和 XLSR-53 wav2vec2.0 模型作为端到端的系统,这些模型都包含有前置的预训练网络。
May, 2022
本文研究通过使用大量训练数据的自动语音识别任务,对语音翻译进行预训练,以提高低资源环境下的语音翻译性能,其中预训练的声学模型起到了关键的作用,并且可用于不同语言对之间的翻译。经验证本方法效果显著,能够在真实的低资源任务中提高性能。
Sep, 2018
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在 Multilingual LibriSpeech 上的实验证明,即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时,多语种 ASR 仍然可行,从而为 LLMs 在长篇音频中进行操作开辟了可能性。
Jul, 2023