利用大型预训练模型与适配器混合进行领域泛化
本文介绍了一种基于预训练语言模型和适应领域的新型领域自适应方法,通过两个阶段的适配器调整策略(在无标签数据上先进行领域适配器调整,然后进行标签数据上的任务适配器调整),可以同时提高在特定领域、跨领域和知识密集型任务中的性能。
Jun, 2023
通过在领域一般化算法的微调过程中利用预训练模型,我们提出了一种新的微调方法,该方法称为 “用大规模预训练先验进行微调(FT-LP)”,在多个数据集和领域一般化模型上的实验证明了其显著改进和有效性。
Jun, 2024
本文提出了一种基于视觉 Transformer 的领域泛化模型 GMoE,通过研究架构与数据集中相关性的一致性来表征网络的抗干扰性;实验表明 GMoE 使用 ERM 训练的性能大幅优于 SOTA DG 基线,并且在使用新的 DG 算法进行训练时其性能有了显著改善。
Jun, 2022
Adapter-X 是一种新的框架,通过参数共享和动态分配,以及引入特定设计来提高适应性,在更少的参数下优于传统的微调方法。
Jun, 2024
本文旨在探索将 Parameter-Efficient Fine-Tuning (PEFT) 技术应用于基于图的任务,提出了一种名为 G-Adapter 的新型结构感知 PEFT 方法,并使用 Bregman Proximal Point 方法进一步缓解特征分布变化问题,研究结果表明,G-Adapter 相对于现有的 PEFT 方法,在 9 个基于图的基准数据集上获得了最先进的性能,并且相比于传统的方法提供了巨大的内存节省。
May, 2023
本论文旨在探索 Mixture of Experts(MoE)在参数高效微调音频光谱变换器用于音频和语音下游任务时的应用,提出了基于适配器的软混合专家方法(Soft-MoA),通过将输入令牌和专家之间进行软分配,不仅保持了计算时间的限制,而且在四项基准测试中表现出了优异的性能,并且与密集 MoA 方法相媲美。实验还验证了 Soft-MoA 的关键组成部分,例如更多的专家可以实现更好的扩展性,并确保所有专家都对输出令牌的计算做出贡献,从而消除了专家不平衡问题。
Feb, 2024
本文提出一种新的域泛化范式 —— 专业组合学习,利用固定的预先训练模型,先训练出一个线性标签空间适配器,然后提出一个认识到模型特殊性的集成网络,动态地分配适当的预训练模型来预测每个测试样本,与现有的域泛化方法相比,可以显著提高性能并大大减少可训练参数和时间成本。
Mar, 2022
提出 AdaMix,在保持大部分 PLM 权重不变的情况下,通过调整每个 Transformer 层中引入的适应模块的混合来优化下游任务的性能,仅调整 0.1-0.2%的 PLM 参数即可胜过 SOTA 参数高效调整和完整模型调整的 NLU 和 NLG 任务。
Oct, 2022
本文提出 AdaMix 作为一种通用的参数高效微调方法,通过调整每个 Transformer 层中引入的自适应模块的混合来提高下游自然语言理解和生成任务的性能。这种方法只对 0.1-0.2%的 PLM 参数进行微调,可以超越目前的各种参数高效微调和完整模型微调方法。
May, 2022
本研究提出了一种方法,在参数高效微调(PEFT)环境中将语言结构注入到预训练语言模型中。我们使用一种新颖的语言专家混合体架构,将编码不同语言结构的并行适配器模块进行组合,并使用 Gumbel-Softmax 门来确定模型每一层中这些模块的重要性。为了减少参数数量,在修剪专家之前,我们首先对模型进行了固定步骤的训练。我们用三种不同的预训练模型进行实验,结果表明我们的方法在具有相当数量的参数的情况下,能够胜过最先进的 PEFT 方法。此外,我们还提供了额外分析,以检查和提供未来研究的见解。
Oct, 2023