通过识别自注意力中的核结构来增强参数有效的迁移学习

ACLMay, 2022

通过识别自注意力中的核结构来增强参数有效的迁移学习

Empowering parameter-efficient transfer learning by recognizing the kernel structure in self-attention

Yifan Chen, Devamanyu Hazarika, Mahdi Namazifar, Yang Liu, Di Jin...

TL;DR本文提出了 Kernel-wise Adapters 方法，通过 self-attention 的 kernel 结构指导可调参数的分配，使得 pre-trained language models 能够通过 parameter-efficient transfer learning 方法在多个 downstream 任务中进行 fine-tuning，其在自然语言处理的各种任务中的性能表现明显超过现有的方法。

Abstract

The massive amount of trainable parameters in the pre-trained language models (PLMs) makes them hard to be deployed to multiple downstream tasks. To address this issue, parameter-efficient transfer learning metho

pre-trained language models parameter-efficient transfer learning kernel-wise adapters self-attention natural language processing

发现论文，激发创造

基于 p-Laplacian 的适应性生成预训练视觉 - 语言模型

本文提出了一种新的建模框架，将适配器调谐视觉 - 语言模型中的注意力转化为基于注意力图的图消息传递过程，其中，投影查询和值特征以及注意力矩阵构成节点特征和图邻接矩阵。在这个框架中，适配器调谐视觉 - 语言模型需要处理异种图，为此，我们提出了一种新的适配器架构 $p$-adapter，在图神经网络中使用 $p$-Laplacian 消息传递。我们在不同的预训练的视觉 - 语言模型和多模态任务上进行了大量实验，包括视觉问答、视觉蕴涵和图像字幕生成。实验结果验证了我们的方法在参数高效的迁移学习方法中的显著优势。

Dec, 2023

元学习差异性：为大型语言模型准备高效迁移

该论文提出了一种通过学习区分微调和适应性 PLMs 的方法，使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应，并在对话完成、摘要生成等任务上展示出明显提升。

Jul, 2022

自我监督模型引导的普适框架，以提高参数效率的微调

提出了一个增强参数高效方法的少样本适应和跨领域泛化能力的通用框架，通过使用自监督模型来迅速适应各种下游少样本任务，并在一个包含 160 个不同 NLP 任务的跨领域基准上进行了实验证明，在额外的训练任务调整 PLM 的前提下最佳性能，综合分析了各种少样本跨领域场景下的参数高效方法。

Dec, 2022

面向参数高效的迁移学习统一视角

本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法，将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改，定义了一组设计维度以表明不同方法的变化方向，如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究，识别了以前方法中的重要设计选择。此外，我们的统一框架使得设计元素可以在不同方法之间进行转移，从而实现了比以前更高效的 fine-tuning 方法。

Oct, 2021

Transformer 分解：通过核的视角统一理解 Transformer 的注意力机制

该论文通过内核视角呈现关注力的新公式，将输入流应用于内核平滑器，提出用对称内核对输入流建模的注意力机制变种，以较少的计算成本实现与最先进模型相媲美的竞争性表现，实验证明不同的内核构建策略能够应用于神经机器翻译和序列预测这两个广泛使用的任务。

Aug, 2019

视觉 Transformer 的参数高效模型适应

本文研究了视觉变换器的参数高效模型适应策略，提出了一种基于局部内在维度的参数高效模型适应框架，并通过实验比较了不同方法在各项指标下的表现。结果表明，该框架在少样本下的 20 个图像分类数据集和全样本下的 7 个图像分类数据集上，在准确性和参数效率之间的平衡上表现最佳。

Mar, 2022

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

HyperPELT：统一参数高效的语言模型调整，适用于语言和视觉语言任务

本文提出一种基于预训练的参数高效迁移学习框架，使用共享的超网络对预训练语言模型进行微调，支持语言和视觉任务，并在多任务学习中具有较好的性能和转移能力。

Mar, 2022

NLP 的参数高效迁移学习

通过适配器模块实现神经网络参数共享，避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能，同时每个任务只需增加 3.6％的可训练参数，表现十分出色。

Feb, 2019

一次参数训练，多任务学习与迁移学习

本文介绍了一种基于小参数集合的深度神经网络迁移学习和多任务学习的新方法，通过调整网络中的特定组件使其适应不同任务，以达到在多个任务中共享参数并且性能表现良好的目的。

Oct, 2018