音频适配器融合：高效无需任务 ID 的非破坏性多任务语音识别

Oct, 2023

音频适配器融合：高效无需任务 ID 的非破坏性多任务语音识别

Audio-AdapterFusion: A Task-ID-free Approach for Efficient and Non-Destructive Multi-task Speech Recognition

Hillary Ngai, Rohan Agrawal, Neeraj Gaur, Ronny Huang, Parisa Haghani...

TL;DR提出了三种无任务 ID 的方法来结合多任务 ASR 中的单任务适配器，并研究了两种训练算法。在来自 4 个不同 ASR 任务的 10 个测试集上评估了我们的方法，结果表明我们的方法不会造成破坏并且参数利用率高。相对于完全微调，我们的方法只更新了模型参数的 17%，平均识别误率提高了 8%，与任务 ID 适配器路由相当。

Abstract

adapters are an efficient, composable alternative to full fine-tuning of pre-trained models and help scale the deployment of large ASR models to many tasks. In practice, a task ID is commonly prepended to the input during inference to route to single-task →

adapters pretrained models asr tasks multi-task settings learning algorithms

发现论文，激发创造

AdapterFusion: 非破坏性任务组合用于迁移学习

AdapterFusion 是一种新型的学习算法，通过两阶段的任务学习过程实现了多任务学习与知识融合，并且可以有效地利用来自多项任务的知识表示，从而优于传统的全局微调和多任务学习方法。

May, 2020

基于适配器的多种口语语言处理任务统一模型

通过适配器微调，我们研究了开展统一模型以有效处理多个口语处理任务的潜力，并在 SUPERB 基准测试中实验证明，适配器微调使得单一的编码 - 解码模型在五个目标任务上的性能提高了 18.4％，同时在参数更新方面保持高效。

Jun, 2024

AdapterDistillation: 无损任务组合与知识蒸馏

通过引入少量任务特定参数到每个 transformer 层中，利用多任务的知识，在最近广受关注的语言模型中，被称为 adapters。然而，为了实现知识组合，增加额外的融合层不仅增加推理时间，也对某些应用不具有可扩展性。为了避免这些问题，我们提出了一种名为 AdapterDistillation 的两阶段知识蒸馏算法。在第一阶段，我们通过使用本地数据训练一个学生适配器来提取任务特定的知识。在第二阶段，我们将现有的教师适配器的知识蒸馏到学生适配器中，以帮助其推理。在面向任务的对话系统中频繁提问的检索方面的大量实验证实了 AdapterDistillation 的效率。我们展示了 AdapterDistillation 在准确性、资源消耗和推理时间等方面优于现有算法。

Dec, 2023

使用知识蒸馏的语言通用适配器学习实现端到端多语言语音识别

本文提出了一个基于预训练模型的语言通用适配器学习框架，用于端到端的多语言自动语音识别。通过插入特定于语言和语言通用适配器来微调 Wav2Vec 2.0 预训练模型，然后使用在线知识蒸馏来使语言通用适配器学习特定于语言和通用特征，通过利用语言识别器（LID）降低语言信息混淆，进而改善识别准确率，并解决通用多语种 ASR 系统中适配器参数数量随语言数量线性增长的问题，BABEL 数据集上的实验结果验证了所提出框架的有效性，并相比传统的多语种模型取得了 3.3％的绝对误差率的降低。

Feb, 2023

基于层次循环适配器的大规模语音模型的高效多任务适应

参数高效的适应方法在训练大型预训练模型进行下游任务时已成为关键机制，我们引入一种适应器模块，它在大规模多任务适应情景中具有更好的效率，适应器具有层次分配适应器参数的特点，通过单个共享的控制器网络和多个任务级适应器头减少每个任务的参数开销，同时避免对下游任务的性能衰退，适应器也是循环的，因此整个适应器参数在预训练模型的不同层之间被重复使用，我们的分层循环适应器 (HRA) 在自动语音识别任务上在单任务和多任务适应设置中表现优于之前的基于适应器的方法和完整模型微调基准线。

Mar, 2024

预训练语音模型的高效适配器调优用于自动说话人验证

通过在预先训练的模型中插入轻量级适配器模块，将自监督语音模型适应到说话人验证任务中，我们提出了一个高效的适配器框架。实验结果表明，该框架在更新仅 5% 的参数的情况下，超过了微调和其他参数高效的迁移学习方法，实现了卓越的性能。

Mar, 2024

视觉转换器适配器适用于可传递多任务学习

我们引入了第一款多任务视觉变换器适配器，它能学习到适用于新任务和领域的通用任务关联性。我们的适配器融合在现成的视觉变换器骨干网络中，能够同时解决多个密集视觉任务，而不像现有的多任务变换器那样需要大量的参数。与同时方法相比，我们无需在添加新任务或领域时重新训练或微调。我们在适配器框架中引入了一种任务适应的注意机制，将基于梯度的任务相似度与基于注意力的相似度相结合。所学习的任务关联性可推广到以下情况：零样本任务迁移、无监督领域适应以及不需要对新领域进行微调的泛化。我们证明了我们的方法不仅优于现有的基于卷积神经网络的多任务方法，还优于基于视觉变换器的方法。

Aug, 2023

自监督语音模型的有效适配器传递用于自动语音识别

本文研究使用适配器将预训练的 wav2vec 2.0 模型进行微调，以减少自动语音识别任务对参数的需求，提高模型的可扩展性和效率。应用适配器后，每个任务的参数少于 10％，性能降低很少。结果表明，通过仅向预训练网络的前几层添加适配器，就可以实现与完全迁移相似的性能，进一步优化了效率。

Feb, 2022

AAT：音频变换器在不同声学识别任务中的应用

提出了一种名为 AAT 的基于 Adapter 调谐的高效微调方法，通过冻结音频 Transformer 模型并插入额外可学习的 Adapter，在不损害模型原始普适性的基础上，有效地获取下游任务知识。大量实验证明，该方法在仅优化 7.118% 的参数的情况下，实现了与完全微调相媲美甚至更优的性能，并显示了对其他微调方法的优越性。

Jan, 2024

面向语音识别的统一说话人适应方法

本文提出了一种基于特征适应和模型适应的统一说话人自适应方法，其中采用一种说话人感知的持久性记忆模型进行特征适应，并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明，相对于基线方法，在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降，并且该方法具有良好的低资源适应性能。

Oct, 2021