面向参数效率语言模型微调的自适应前缀调整
本文提出字首调整 (prefix-tuning),来解决专用模型使用全量预训练语言模型的空间问题,自动学习小、定制化的向量。通过应用于自然语言生成和文本总结,仅使用 0.1% 的参数即能达到很好的性能。
Jan, 2021
提出一种保持 prefix-tuning 的有效性和模块化性的鲁棒性前缀调谐方法,通过正确分类的数据作为附加前缀调谐的标准,使用语言模型的层激活来增强鲁棒性,并通过针对每个批次的额外批量级前缀来提高鲁棒性。实验证明,该方法在多个基准测试中执行对抗攻击时,在保持高准确性的前提下,大幅提高了模型的鲁棒性。
Mar, 2022
本研究通过实验证明,相较于 fine-tuning 方法,prefix tuning 在面对嘈杂数据时更脆弱,会导致性能下降,特别是在噪声水平增加的数据集中,此外,prefix tuning 在许多污染方法中的 F1 得分方差比 fine-tuning 高,因此在使用这种方法处理嘈杂的数据时应谨慎。
Oct, 2022
本论文探讨了为长序列语言任务实现参数有效学习的方法,提出了一种基于前缀传播的简单且有效的方法,在校准和核注意力方面表现出优越性,并且使用的参数比前缀调整少 50%。
May, 2023
本文提出了通过核方法理解 prefix-tuning,并将其发展为 inducer-tuning 来提高其性能,通过自然语言理解和生成任务的综合实验,证明了 inducer-tuning 可以缩小 prefix-tuning 和 fine-tuning 之间的性能差距。
Oct, 2022
本研究提出了一种名为 “Approximated Prompt Tuning” 的方法,用以提高视觉语言预训练模型的迁移学习效率,其基于软提示令牌的独立信息扩散步骤,从而有效地避免了昂贵的全局关注建模,并显著降低了计算复杂度。
Jun, 2023
本文提出了 Ahead-of-Time (AoT) P-Tuning 方法,即在每个 Transformer 层之前添加输入相关偏置的一种新颖的针对预训练语言模型的参数高效微调方法。在 GLUE 和 SuperGLUE 基准数据集上使用 RoBERTa 和 DeBERTa 模型对 AoT P-Tuning 进行了评估,表明它优于 BitFit,并且与其他基准方法一样或更好。此外,我们评估了 AoT P-Tuning 的推理开销,并证明它引入的开销与已建立的基准方法相比可以忽略不计。我们的方法使得单个骨干语言模型能够进行多任务推理,从而成为现实世界应用的实用解决方案。
May, 2023
该研究介绍了一种新的适应方法,使用 UniPELT 框架作为基础,并添加了 PromptTuning 层,从而在保持竞争力的同时显著减少了可训练参数的数量。该方法利用适配器实现了预训练模型向新任务的有效转移,无需重新训练基础模型参数。通过对三个不同数据集进行评估,研究结果表明,该基于适配器的方法在性能上与全模型微调、DAPT+TAPT 和 UniPELT 策略相当,而需要更少或相同数量的参数。这种参数效率不仅减轻了计算负担,还加快了适应过程。该研究强调了适配器在实现高性能以及显著节约资源消耗方面的潜力,为参数高效微调的未来研究方向提供了有益的提示。
May, 2024
本文研究了利用 PLM 进行语义解析的问题,并比较了在数据较少和常规情况下,冻结 PLM 参数的前缀调整和偏置项调整两种新技术与全量和部分微调的性能。作者发现,通过添加特殊令牌嵌入的前缀调整方法可以在保持参数节省的同时,获得非常良好的性能。
Mar, 2022