自适应调整：克服多语言语音识别中的长尾问题

Dec, 2020

自适应调整：克服多语言语音识别中的长尾问题

Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual Speech Recognition

Genta Indra Winata, Guangsen Wang, Caiming Xiong, Steven Hoi

TL;DR本文提出了一种基于 Transformer 的多任务学习框架 Adapt-and-Adjust (A2)，通过利用预先训练好的多语种语言模型 (mBERT) 来提高低资源语言的性能、提出有着最小额外参数的语言特定和语言不可知适应器，以及在训练期间通过强制类先验或调整 softmax 输出的逻辑回归来克服类失衡。在 CommonVoice 数据集上的广泛实验表明，A2 明显优于传统方法。

Abstract

One crucial challenge of real-world multilingual speech recognition is the long-tailed distribution problem, where some resource-rich languages like English have abundant training data, but a long tail of low-res

multilingual speech recognition long-tailed distribution adapt-and-adjust framework transformer-based multi-task learning mbert pretrained language model

发现论文，激发创造

流式多语种 ASR 中对尾语言的高效适配器微调

通过在流式多语种 ASR 中引入语言相关适配器（LDA）微调和基于教师伪标签技术，本研究提出的方法有效地减少了平均 12.2% 的词错误率，并在单个场景中最多降低了 37.5% 的错误率，从而显著缓解了异步峰值性能问题。

Jan, 2024

面向低资源语言的多语种 Transformer 语言模型

通过将多个低资源语言聚集在一起来实现地区组多语言 Transformer LM 的最佳性能，使得 Monolingual LM 候选模型表现更佳且减少维护成本和运营费用。

Sep, 2022

使用知识蒸馏的语言通用适配器学习实现端到端多语言语音识别

本文提出了一个基于预训练模型的语言通用适配器学习框架，用于端到端的多语言自动语音识别。通过插入特定于语言和语言通用适配器来微调 Wav2Vec 2.0 预训练模型，然后使用在线知识蒸馏来使语言通用适配器学习特定于语言和通用特征，通过利用语言识别器（LID）降低语言信息混淆，进而改善识别准确率，并解决通用多语种 ASR 系统中适配器参数数量随语言数量线性增长的问题，BABEL 数据集上的实验结果验证了所提出框架的有效性，并相比传统的多语种模型取得了 3.3％的绝对误差率的降低。

Feb, 2023

低资源情景下 TTS 系统的语言适应初探

本文探讨了基于自监督学习 (SSL) 多语言模型的 ZMM-TTS 语言适应能力，研究发现了预训练语言和目标语言的语音学相似性、语言类别、微调数据集大小以及说话人数量对适应性的影响，并且发现相对于配对数据，仅音频数据在微调中并不总是最优选择。同时，研究还包括了说话人相似度、语言识别以及预测的 MOS。

Jun, 2024

利用参数高效的迁移学习进行多语言文本到语音调整

在多种语言环境中，为了有效地合成语音，开发一个能够应对不同语言的语音合成模型是具有挑战性的。本文提出了一种在多语言语音合成中，将参数高效的迁移学习方法（如适配器和超网络）与 TTS 架构集成的方法，并在实验中证明这种方法在性能上能够与全面微调方法相媲美甚至更好，参数数量仅为总参数的约 2.5%。

Jun, 2024

面向低资源多语言语音识别的自适应激活网络

本篇论文提出了一种适应性激活网络，用于深度学习 ASR 模型的上层，并将不同的激活函数应用于不同的语言，通过交叉语言学习和多语言学习优化模型，达到了在 IARPA Babel 数据集上超越传统的基于瓶颈特征和从头训练两种方法的效果提升，结合交叉语言学习和多语言学习可以进一步提高多语言语音识别的性能。

May, 2022

多语音识别中的代码切换适配器适应

本文提出了在代码转换的语音中有效地微调大型预训练多语言语音模型的方法，并将代码转换建模为一系列潜在的二进制序列，以引导每个语言适配器在帧级别上的信息流，通过在阿拉伯语、普通话和印地语等多种语言与英语配对的数据集上的评估，显示出代码转换性能的持续改进，至少可以将语音识别错误率 (CER) 降低 10％。

Oct, 2023

跨口音语音识别上的快速适应学习

研究了方言对同一语言单词发音的影响，提出了一种基于模型对抗元学习算法的跨方言英语语音识别任务，通过实验表明该方法显著优于联合训练。

Mar, 2020

神经网络语言模型的增量适应策略

本文提出了两种优化神经网络语言模型适应新数据的方法，包括在重新采样数据上进行继续训练或插入适应性层。在 CAT 环境中应用于 SMT 系统中，这两种方法均取得了显著的改进。

Dec, 2014

基于记忆增强查找字典的语言建模自动语音识别

该研究提出了一种新的内存增强的查找字典的 Transformer 语言模型，并证明了它在长尾预测问题上的有效性，提高了自动语音识别解码效率，特别是对于长尾词的识别表现更佳。

Dec, 2022