AdapterFusion: 非破坏性任务组合用于迁移学习
通过引入少量任务特定参数到每个 transformer 层中,利用多任务的知识,在最近广受关注的语言模型中,被称为 adapters。然而,为了实现知识组合,增加额外的融合层不仅增加推理时间,也对某些应用不具有可扩展性。为了避免这些问题,我们提出了一种名为 AdapterDistillation 的两阶段知识蒸馏算法。在第一阶段,我们通过使用本地数据训练一个学生适配器来提取任务特定的知识。在第二阶段,我们将现有的教师适配器的知识蒸馏到学生适配器中,以帮助其推理。在面向任务的对话系统中频繁提问的检索方面的大量实验证实了 AdapterDistillation 的效率。我们展示了 AdapterDistillation 在准确性、资源消耗和推理时间等方面优于现有算法。
Dec, 2023
通过适配器模块实现神经网络参数共享,避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能,同时每个任务只需增加 3.6%的可训练参数,表现十分出色。
Feb, 2019
提出了三种无任务 ID 的方法来结合多任务 ASR 中的单任务适配器,并研究了两种训练算法。在来自 4 个不同 ASR 任务的 10 个测试集上评估了我们的方法,结果表明我们的方法不会造成破坏并且参数利用率高。相对于完全微调,我们的方法只更新了模型参数的 17%,平均识别误率提高了 8%,与任务 ID 适配器路由相当。
Oct, 2023
大规模预训练模型已在各种计算机视觉任务中取得了显著成果。然而,与其它单一任务的适应性方法相比,在多任务适应方面的研究有限,这些方法往往表现出次优的训练和推理效率。本文首先提出了一种全能视觉多任务适配器(VMT-Adapter),其训练和推理效率与任务数量近似为 O (1)。具体而言,VMT-Adapter 通过共享多个任务的知识来增强跨任务交互,并通过独立知识提取模块保留了任务特定的知识。此外,本文还提出了 VMT-Adapter-Lite,通过学习下投影和上投影之间的共享参数来进一步减少可训练参数。对四个密集场景理解任务的大量实验证明了 VMT-Adapter (-Lite) 的优越性,相比于单一任务的全面微调,它们分别实现了 3.96%(1.34%)的相对改进,并仅利用了预训练模型的约 1%(0.36%)的可训练参数。
Dec, 2023
通过使用新的 Transformer 架构,包括一种新的条件注意机制以及一组任务条件模块,旨在促进权重共享,我们实现了更有效的参数共享,并通过保持预训练模型的一半权重来缓解遗忘。同时,我们使用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。与其他 BERT Large 方法在 GLUE 上相比,我们的八任务模型超过了其他 Adapter 方法 2.8%,而我们的 24 任务模型在使用 MTL 和单任务微调的模型上表现优异。我们还展示了我们的单个多任务模型方法的较大变体在 26 个 NLP 任务中竞争,并在一些测试和开发集上取得了最先进的结果。
Sep, 2020
通过适配器微调,我们研究了开展统一模型以有效处理多个口语处理任务的潜力,并在 SUPERB 基准测试中实验证明,适配器微调使得单一的编码 - 解码模型在五个目标任务上的性能提高了 18.4%,同时在参数更新方面保持高效。
Jun, 2024
我们引入了第一款多任务视觉变换器适配器,它能学习到适用于新任务和领域的通用任务关联性。我们的适配器融合在现成的视觉变换器骨干网络中,能够同时解决多个密集视觉任务,而不像现有的多任务变换器那样需要大量的参数。与同时方法相比,我们无需在添加新任务或领域时重新训练或微调。我们在适配器框架中引入了一种任务适应的注意机制,将基于梯度的任务相似度与基于注意力的相似度相结合。所学习的任务关联性可推广到以下情况:零样本任务迁移、无监督领域适应以及不需要对新领域进行微调的泛化。我们证明了我们的方法不仅优于现有的基于卷积神经网络的多任务方法,还优于基于视觉变换器的方法。
Aug, 2023
ALTER 是一个基于小型语言模型的多任务学习系统,它通过混合任务适应器来同时处理多个自然语言处理任务,以支持领域特定的应用。实验证明,ALTER 提出的 MTA 架构和二阶段训练方法实现了良好的性能。
Sep, 2023
本文提出了一种通过使用共享的超网络生成适配器参数来学习所有层和任务的参数高效的多任务学习框架,从而在跨任务共享知识的同时,通过任务特定的适配器使模型适应每个单独的任务,并在已知的 GLUE 基准测试中实现了多任务学习的改进性能。
Jun, 2021