一个 Prompt 值得多少数据点？

ACLMar, 2021

How Many Data Points is a Prompt Worth?

Teven Le Scao, Alexander M. Rush

TL;DR本研究目的是在公平的环境中比较使用泛用模型的头部和使用任务特定提示的微调，通过控制各种先天优势，我们发现提示确实带来了好处，并且这种好处可以针对每个任务进行量化，结果表明，相对于分类任务，提示通常值得跨越数百个数据点。

Abstract

When fine-tuning pretrained models for classification, researchers either use a generic model head or a task-specific prompt for predictio

pretrained models fine-tuning classification prompting low-data regimes

发现论文，激发创造

提示性模型是否无能？

该论文研究了少样本提示模型是否也利用了表象线索，发现在 MNLI、SNLI、HANS 和 COPA 数据集上，尽管模型在表象线索实例上表现良好，但在没有表象线索的实例上的性能往往低于或仅略优于随机准确度。

May, 2022

我们真的需要大量的视觉提示吗？

本文研究了视觉转换器结构中 Prompt 数量对微调效果和自注意力操作的影响。通过理论和实证分析，我们发现增加 Prompt 数量并不能带来线性的性能提升。为此，我们提出 Prompt Condensation 技术来防止 Prompt 数量过多导致的性能下降，实验证明我们的方法在维持准确度的同时能减少大约 70% 的 prompts 数量。

May, 2023

MetricPrompt: 以 Prompting 模型作为 Few-shot 文本分类的相关性评估度量

本研究提出了 MetricPrompt 方法来解决 few-shot 分类任务的 verbalizer 设计难题，将其转化为文本对相关性评估任务，使用 prompting 模型作为相关性度量，取得了超过手动 verbalizer 和其他自动 verbalizer 设计方法的最新 SOTA 表现。

Jun, 2023

提示驱动模型真正理解其提示的含义吗？

本研究证实了即使是故意无关或甚至有误导性的提示，也可以让一些零样本或少样本学习模型像 “好” 的提示一样快地进行学习，这一模式适用于模型尺寸大小，这引出一个问题，问这种改进是不是源于模型像人类一样理解掌握任务提示。

Sep, 2021

在零样本设置中评估多项选择任务的提示

本文研究大型语言模型如何通过自然语言提示实现令人印象深刻的零 - shot 性能，归纳和标准化提示任务属性后，发现包含选项和使用未在预训练中使用的提示可以显著提高性能。

Mar, 2022

如何控制对话模型：提升对话质量的方法

本文探讨了如何在对话模型中平衡训练文本的多样性和生成对话样式的限制，研究表明，通过将提示信息与查询进行绑定，可以实现更高质量的多样化回复。

Sep, 2022

属性控制的对话提示

该论文介绍了一种新颖的基于实例控制代码的提示调整算法来探索其对于对话生成的影响，该算法不同于传统的离散提示和连续提示，可以适应输入变化较大的任务，如开放领域对话生成，并在经典数据集上实验证明其比提示基线更好，而参数却只需用到总计量的 5-6%。

Jul, 2023

基于 Shapley 值的简要估值

利用 Shapley 值方法，我们有效地区分并量化每个提示的贡献，从而确认其在各种任务中的有效性。

Dec, 2023

微调、提示、上下文学习和指导微调：我们需要多少标记样本？

在本研究中，我们旨在调查专用模型需要多少标记样本才能达到优越性能，同时考虑结果方差。我们通过观察提示、上下文学习、微调和指令调整的行为，确定它们在增加不同复杂度任务的标记训练样本数量时的平衡点，发现专用模型通常只需要少量样本（100-1000）就能达到或超越通用模型。与此同时，所需的标记数据量强烈依赖于任务复杂度和结果方差。

Feb, 2024

动态提示：一种用于提示调整的统一框架

本文提出了一种动态提示策略 (DP) 来优化 LMs 的 prompt tuning，通过任务优化、位置、长度和提示表示的动态优化，实验证明 DP 能提高分类准确度，并证明其在全数据、少样本和多任务情况下都是有用的。

Mar, 2023