前缀传播：用于长序列的参数有效调整

ACLMay, 2023

前缀传播：用于长序列的参数有效调整

Prefix Propagation: Parameter-Efficient Tuning for Long Sequences

Jonathan Li, Will Aitken, Rohan Bhambhoria, Xiaodan Zhu

TL;DR本论文探讨了为长序列语言任务实现参数有效学习的方法，提出了一种基于前缀传播的简单且有效的方法，在校准和核注意力方面表现出优越性，并且使用的参数比前缀调整少 50%。

Abstract

parameter-efficient tuning aims to mitigate the large memory requirements of adapting pretrained language models for downstream tasks. For example, one popular method, prefix-tuning, prepends trainable tokens to sequences while freezing the rest of the model's parameters. Although such

parameter-efficient tuning prefix-propagation long-sequence language tasks calibration kernel attention

发现论文，激发创造

面向参数效率语言模型微调的自适应前缀调整

本研究聚焦于前缀调整 fine-tuning 技术，并提出了自适应前缀调整（APT）方法，结合门控机制实现对细粒度和粗粒度级别的前缀优化，实证实现了在 SuperGLUE 和 NER 数据集上的有效性和效率验证。

May, 2023

Prefix-Tuning: 优化连续提示用于生成任务

本文提出字首调整 (prefix-tuning)，来解决专用模型使用全量预训练语言模型的空间问题，自动学习小、定制化的向量。通过应用于自然语言生成和文本总结，仅使用 0.1% 的参数即能达到很好的性能。

Jan, 2021

文本分类的鲁棒前缀调优

提出一种保持 prefix-tuning 的有效性和模块化性的鲁棒性前缀调谐方法，通过正确分类的数据作为附加前缀调谐的标准，使用语言模型的层激活来增强鲁棒性，并通过针对每个批次的额外批量级前缀来提高鲁棒性。实验证明，该方法在多个基准测试中执行对抗攻击时，在保持高准确性的前提下，大幅提高了模型的鲁棒性。

Mar, 2022

Transformer 中的无限长前缀

研究了前缀学习的学习能力，通过无限长度前缀在一层注意力网络中的表达和解决问题，证实了无限长度前缀学习在注意力中的过度参数化性质和任意小的损失收敛性保证。提出了 NTK-Attention 方法，可实现任意前缀长度的注意力计算，具有参数效率高、在多种场景中表现优越的潜力。

Jun, 2024

Inducer-tuning: 连接 Prefix-tuning 和 Adapter-tuning

本文提出了通过核方法理解 prefix-tuning，并将其发展为 inducer-tuning 来提高其性能，通过自然语言理解和生成任务的综合实验，证明了 inducer-tuning 可以缩小 prefix-tuning 和 fine-tuning 之间的性能差距。

Oct, 2022

面向参数高效的迁移学习统一视角

本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法，将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改，定义了一组设计维度以表明不同方法的变化方向，如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究，识别了以前方法中的重要设计选择。此外，我们的统一框架使得设计元素可以在不同方法之间进行转移，从而实现了比以前更高效的 fine-tuning 方法。

Oct, 2021

参数高效的长尾识别

通过引入 PEL 方法，该研究通过少于 20 个时期的微调，无需额外数据即可适应长尾识别任务，并通过在分类器初始化中采用 CLIP 文本编码器的新颖技术解决了过度拟合问题，从而持续优于之前的最佳方法。

Sep, 2023

超调：大型语言模型的自适应调节方法，无需借助反向传播算法

本文提出了 HyperTuning 方法用于模型适应，可以生成特定任务的参数并在大量多样化语言任务上进行多任务微调。通过在 P3、MetaICL 和 Super-NaturalInstructions 数据集上的表现，证明该方法可以有效地为新任务生成参数，并改善性能。

Nov, 2022

探索前缀调整在嘈杂数据中的稳健性：以金融情感分析为例的案例研究

本研究通过实验证明，相较于 fine-tuning 方法，prefix tuning 在面对嘈杂数据时更脆弱，会导致性能下降，特别是在噪声水平增加的数据集中，此外，prefix tuning 在许多污染方法中的 F1 得分方差比 fine-tuning 高，因此在使用这种方法处理嘈杂的数据时应谨慎。

Oct, 2022

HyperPELT：统一参数高效的语言模型调整，适用于语言和视觉语言任务

本文提出一种基于预训练的参数高效迁移学习框架，使用共享的超网络对预训练语言模型进行微调，支持语言和视觉任务，并在多任务学习中具有较好的性能和转移能力。

Mar, 2022