ACLMay, 2022

通过识别自注意力中的核结构来增强参数有效的迁移学习

TL;DR本文提出了 Kernel-wise Adapters 方法,通过 self-attention 的 kernel 结构指导可调参数的分配,使得 pre-trained language models 能够通过 parameter-efficient transfer learning 方法在多个 downstream 任务中进行 fine-tuning,其在自然语言处理的各种任务中的性能表现明显超过现有的方法。