May, 2023

提前 P 调整

TL;DR本文提出了 Ahead-of-Time (AoT) P-Tuning 方法,即在每个 Transformer 层之前添加输入相关偏置的一种新颖的针对预训练语言模型的参数高效微调方法。在 GLUE 和 SuperGLUE 基准数据集上使用 RoBERTa 和 DeBERTa 模型对 AoT P-Tuning 进行了评估,表明它优于 BitFit,并且与其他基准方法一样或更好。此外,我们评估了 AoT P-Tuning 的推理开销,并证明它引入的开销与已建立的基准方法相比可以忽略不计。我们的方法使得单个骨干语言模型能够进行多任务推理,从而成为现实世界应用的实用解决方案。