参数高效的多任务模型融合与部分线性化
通过适配器模块实现神经网络参数共享,避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能,同时每个任务只需增加 3.6%的可训练参数,表现十分出色。
Feb, 2019
本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法,将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改,定义了一组设计维度以表明不同方法的变化方向,如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究,识别了以前方法中的重要设计选择。此外,我们的统一框架使得设计元素可以在不同方法之间进行转移,从而实现了比以前更高效的 fine-tuning 方法。
Oct, 2021
AdapterFusion 是一种新型的学习算法,通过两阶段的任务学习过程实现了多任务学习与知识融合,并且可以有效地利用来自多项任务的知识表示,从而优于传统的全局微调和多任务学习方法。
May, 2020
本文介绍了针对代码的预训练模型参数高效微调的适配器和 LoRA 两种方法,经过四项代码处理任务测试,发现这些高效微调方法在代码理解任务中可以实现可比或更高的性能,但在代码生成任务中性能不如标准的全微调。这些结果强调了在其他领域测试高效微调方法的重要性,并促进了对源代码高效微调的未来研究。
Dec, 2022
本研究提出了一种新的语言转换微调策略,它在多个转换器层中引入了特定于任务的参数,这些参数是来自单一可训练向量的固定随机投影,使微调具有明显更少的参数,从而实现了 “低资源应用程序及带隐私约束条件训练” 条件下的有效性和性能。
May, 2023
本文提出了一种通过使用共享的超网络生成适配器参数来学习所有层和任务的参数高效的多任务学习框架,从而在跨任务共享知识的同时,通过任务特定的适配器使模型适应每个单独的任务,并在已知的 GLUE 基准测试中实现了多任务学习的改进性能。
Jun, 2021
本文介绍了一种新的多任务学习(MTL)模型的参数有效训练框架 MTLoRA,该框架通过使用任务无关和任务特定的低秩适应模块,在 MTL 微调中有效地解离参数空间,从而使模型能够熟练处理 MTL 环境中的任务专业化和交互,并且在 PASCAL 数据集上的广泛实验表明,MTLoRA 在减少可训练参数数量的同时,比对 MTL 模型进行全面微调在下游任务上具有更高的准确性,同时在准确性和效率方面优于当前最先进的参数有效训练方法。
Mar, 2024
通过模型融合,将预训练适配器高效地整合到单一模型,以提高适配器调优的性能,特别是在少样本学习中,相对于单个适配器和网络融合方法,所提出的 MerA 方法在两个预训练语言模型上实现了显著的性能提升,并通过引入 “同路径” 设置进一步增加了模型的容量,取得了超越全微调和适配器调优的表现。
Aug, 2023
大规模预训练模型已在各种计算机视觉任务中取得了显著成果。然而,与其它单一任务的适应性方法相比,在多任务适应方面的研究有限,这些方法往往表现出次优的训练和推理效率。本文首先提出了一种全能视觉多任务适配器(VMT-Adapter),其训练和推理效率与任务数量近似为 O (1)。具体而言,VMT-Adapter 通过共享多个任务的知识来增强跨任务交互,并通过独立知识提取模块保留了任务特定的知识。此外,本文还提出了 VMT-Adapter-Lite,通过学习下投影和上投影之间的共享参数来进一步减少可训练参数。对四个密集场景理解任务的大量实验证明了 VMT-Adapter (-Lite) 的优越性,相比于单一任务的全面微调,它们分别实现了 3.96%(1.34%)的相对改进,并仅利用了预训练模型的约 1%(0.36%)的可训练参数。
Dec, 2023