Prefix-Tuning: 优化连续提示用于生成任务
本研究聚焦于前缀调整 fine-tuning 技术,并提出了自适应前缀调整(APT)方法,结合门控机制实现对细粒度和粗粒度级别的前缀优化,实证实现了在 SuperGLUE 和 NER 数据集上的有效性和效率验证。
May, 2023
通过优化,使用 P-Tuning v2 方法能够在广泛的模型尺度和自然语言理解任务中取得与微调相当的性能,只需调整 0.1%-3% 的参数。
Oct, 2021
本文提出了基于前缀微调(prefix tuning)的方法,使用一组可训练的连续前缀提示和离散提示来辅助模型生成,显著提高了使用 GPT-2 生成的 CNN/Daily Mail 和 XSum 摘要的事实保留。此方法在知识增强的文档摘要中表现出了其有效性,并显示了在其他自然语言处理任务中的巨大潜力。
Jan, 2023
通过 prompt tuning 机制,使用 backpropagation 学习 soft prompts 以提升 downstream tasks 的性能,其中 soft prompts 可以与多个 labeled examples 相结合,这种方法比 GPT-3 的 few-shot learning 更有效,并且在语言模型规模达到 10 亿以上时,method 的表现与 model tuning 相匹敌,而且具有更好的领域转移鲁棒性。
Apr, 2021
本研究通过实验证明,相较于 fine-tuning 方法,prefix tuning 在面对嘈杂数据时更脆弱,会导致性能下降,特别是在噪声水平增加的数据集中,此外,prefix tuning 在许多污染方法中的 F1 得分方差比 fine-tuning 高,因此在使用这种方法处理嘈杂的数据时应谨慎。
Oct, 2022
提出一种保持 prefix-tuning 的有效性和模块化性的鲁棒性前缀调谐方法,通过正确分类的数据作为附加前缀调谐的标准,使用语言模型的层激活来增强鲁棒性,并通过针对每个批次的额外批量级前缀来提高鲁棒性。实验证明,该方法在多个基准测试中执行对抗攻击时,在保持高准确性的前提下,大幅提高了模型的鲁棒性。
Mar, 2022
在本论文中,我们提出了一种名为 LoPT 的低秩模型,用于优化提示信息,通过减少可训练参数数量,实现与完全参数的提示优化相似的效果,同时相较于现有方法需要的参数数量减少了 5 到 20 倍。
Jun, 2024
该论文提出了一种名为 Visual Prompt Tuning(VPT)的高效且有效的调整大规模 Transformer 模型的替代方案,相较于 fine-tuning,VPT 仅在输入空间中引入很少的可训练参数,通过在广泛的下游识别任务上的实验,我们发现 VPT 在许多情况下甚至比全尺寸 fine-tuning 更加优秀,同时减小了每个任务的存储成本。
Mar, 2022
基于上下文的微调方法,包括提示、上下文学习、软提示(也称为提示微调)和前缀微调,由于能够在参数的一小部分范围内经常达到完全微调的性能,因此受到了广泛的关注。尽管这些方法在实证上取得了成功,但对于这些技术如何影响模型的内部计算和它们的表达能力限制,在理论上还知之甚少。我们证明了尽管连续的嵌入空间比离散的标记空间更具表达能力,但软提示和前缀微调与完全微调相比,在相同数量的可学习参数下是严格不具表达能力的。具体而言,基于上下文的微调不能改变内容的相对注意模式,并且只能将注意层的输出朝一个固定的方向偏置。这表明,虽然提示、上下文学习、软提示和前缀微调等技术可以有效地引出预训练模型中存在的技能,但它们无法学习需要新的注意模式的新任务。
Oct, 2023
本文介绍了一种基于 Prompt tuning 的神经文本检索方法,通过更新其中 0.1% 的参数,能够显著提高检索模型的泛化性能,在额外引入一份包括 87 个主题的来自学术领域的数据集的情况下,证明了这种检索方法的横向主题泛化性强于传统方法。
Jul, 2022