使用知识蒸馏的语言通用适配器学习实现端到端多语言语音识别

Feb, 2023

使用知识蒸馏的语言通用适配器学习实现端到端多语言语音识别

Language-Universal Adapter Learning with Knowledge Distillation for End-to-End Multilingual Speech Recognition

Zhijie Shen, Wu Guo, Bin Gu

TL;DR本文提出了一个基于预训练模型的语言通用适配器学习框架，用于端到端的多语言自动语音识别。通过插入特定于语言和语言通用适配器来微调 Wav2Vec 2.0 预训练模型，然后使用在线知识蒸馏来使语言通用适配器学习特定于语言和通用特征，通过利用语言识别器（LID）降低语言信息混淆，进而改善识别准确率，并解决通用多语种 ASR 系统中适配器参数数量随语言数量线性增长的问题，BABEL 数据集上的实验结果验证了所提出框架的有效性，并相比传统的多语种模型取得了 3.3％的绝对误差率的降低。

Abstract

In this paper, we propose a language-universal adapter learning framework based on a pre-trained model for end-to-end multilingual automatic speech recognition (ASR). For acoustic modeling, the wav2vec 2.0 pre-tr

language-universal adapter learning framework automatic speech recognition wav2vec 2.0 multi-head attention outputs babel dataset

发现论文，激发创造

将预训练语言模型提炼为多语言自动语音识别模型

本研究提出了一个名为 Distill-L2S 的新方法，将一个已经训练好的跨语言语言模型转移到语音识别模型中，通过该方法在 20 种低资源语言中达到了优越性能。

Jun, 2022

多语音识别中的代码切换适配器适应

本文提出了在代码转换的语音中有效地微调大型预训练多语言语音模型的方法，并将代码转换建模为一系列潜在的二进制序列，以引导每个语言适配器在帧级别上的信息流，通过在阿拉伯语、普通话和印地语等多种语言与英语配对的数据集上的评估，显示出代码转换性能的持续改进，至少可以将语音识别错误率 (CER) 降低 10％。

Oct, 2023

基于适配器的多种口语语言处理任务统一模型

通过适配器微调，我们研究了开展统一模型以有效处理多个口语处理任务的潜力，并在 SUPERB 基准测试中实验证明，适配器微调使得单一的编码 - 解码模型在五个目标任务上的性能提高了 18.4％，同时在参数更新方面保持高效。

Jun, 2024

跨语言 monolingual wav2vec-2.0 的魔法尘

该研究提出了一种简单有效的跨语言转移学习方法，以适应资源匮乏语言的单语言 wav2vec-2.0 模型的自动语音识别（ASR），并通过使用目标语言中的一组适度大小的无标签语音数据集和几个 Dropout 不确定性驱动的自我训练（DUST）迭代进一步提高其性能。该调整后的 wav2vec-2.0 在目标语言 ASR 任务上达到了类似于训练了 53 种语言的顶级多语言 XLSR 模型的性能。

Oct, 2021

UDapter：面向真正通用依存句法分析的语言适应

该研究提出了一种基于文本参数生成和适配器模块的新型多语言任务适应方法，该方法通过语言嵌入来学习适配器，同时在各种语言之间共享模型参数，可有效地集成现有的语言类型学特征到分析网络中，并在高资源和低资源语言中均显着优于强的单语言和多语言基线，这表明了所提出的适应方法的成功。

Apr, 2020

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022

将解码与知识蒸馏并行进行：从语言模型到端到端语音识别的有效知识蒸馏

通过使用中间层和最终层，本研究提出了一种将 BERT 教师模型的知识蒸馏到自动语音识别模型中的新方法。实验证明，使用中间层作为蒸馏目标可以更有效地将语言模型知识蒸馏到较低的网络层，从而实现比外部语言模型的浅层融合更好的识别准确性，同时保持了快速并行解码。

Jan, 2024

面向语音识别的统一说话人适应方法

本文提出了一种基于特征适应和模型适应的统一说话人自适应方法，其中采用一种说话人感知的持久性记忆模型进行特征适应，并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明，相对于基线方法，在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降，并且该方法具有良好的低资源适应性能。

Oct, 2021

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022

跨语言 NLU 中的语言适配器的影响

在不存在语言的监督数据的情况下，本文研究了语言适配器在自然语言理解任务中零样本跨语言转移中的作用，通过对两个多语言模型和三个多语言数据集的详尽消融研究，结果表明目标语言适配器在任务、语言和模型间影响高度不一致。相比之下，保留源语言适配器通常能够获得相当甚至更好的性能，训练后去除语言适配器只有较弱的负面影响，表明语言适配器对于预测结果的影响并不显著。

Jan, 2024