考虑平坦度的提示选择可提高准确性和样本效率

May, 2023

考虑平坦度的提示选择可提高准确性和样本效率

Flatness-Aware Prompt Selection Improves Accuracy and Sample Efficiency

Lingfeng Shen, Weiting Tan, Boyuan Zheng, Daniel Khashabi

TL;DR该论文介绍了一种用于衡量语言提示效用的新度量标准，它被称为 prompt flatness。作者使用它与其他提示选择度量标准相结合，提出了一种改进的提示选择方法，并且在 6 个分类基准测试中平均提高了 5% 的准确性和 10% 的皮尔逊相关性。

Abstract

With growing capabilities of large language models, prompting them has become the dominant way to access them. This has motivated the development of strategies for automatically selecting effective language prompts. In this paper, we introduce prompt flatness, a new →

language models prompt selection metric flatness regularization classification

发现论文，激发创造

量化语言模型对触发设计中伪特征的敏感性，或：我如何开始担忧触发格式

大语言模型的关键因素在于提示设计对其性能会产生巨大影响，通过许多方面的分析研究，我们发现几种常用开源大语言模型对微妙的提示格式变化具有极高的敏感性，这种敏感性在不断增加模型大小、样本数量或进行指令调整时仍然存在。

Oct, 2023

MetricPrompt: 以 Prompting 模型作为 Few-shot 文本分类的相关性评估度量

本研究提出了 MetricPrompt 方法来解决 few-shot 分类任务的 verbalizer 设计难题，将其转化为文本对相关性评估任务，使用 prompting 模型作为相关性度量，取得了超过手动 verbalizer 和其他自动 verbalizer 设计方法的最新 SOTA 表现。

Jun, 2023

大型语言模型的自动提示选择

自动选择给定输入的最佳提示，克服手动设计有效提示的挑战，通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器，并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。

Apr, 2024

大语言模型的公平指导少样本提示

本文提出了一个度量标准，评估了一个固定提示对标签或给定属性的预测偏差，并提出了一种新的基于贪心搜索的搜索策略来确定最佳提示，以提高上下文学习的性能，并在多种下游任务中使用 GPT-3 等最先进的主流模型进行全面实验。结果表明，我们的方法可以有效提高模型的在上下文学习性能。

Mar, 2023

简单的 LLM 提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023

通过统一的评估和分析提高基于概率的提示选择

本文中，我们提出了一种统一的框架来解释和评估现有的概率基准选取方法，对 13 个常见的 NLP 任务进行了广泛的实验，并发现所有现有方法都可以统一为一些变量的方法，这些方法最大化了输入和相应模型输出之间的互信息，并提出了几种互信息的变体，并通过较新的校准方法，即 Margin- Calibration by Marginalization（CBM）提高了最佳选择方法的准确性，从而将选中问题的性能与最佳 Oracle 问题的性能比率提高到 99.44%。

May, 2023

超越 Flesch-Kincaid：基于提示的度量改善教育文本的难度分类

使用大型语言模型（LLMs）对教育应用，如基于对话的教学，进行研究是一个热门话题。本研究引入并评估了基于提示的文本难度度量，该度量方法相比静态度量具有更好的性能，并展示了利用 LLMs 评估文本对不同教育水平的适应的潜力。

May, 2024

AutoPrompt: 使用自动生成的提示从语言模型中引导知识

利用自动化方法生成的 AutoPrompt，我们展示了预训练语言模型在自然语言推理、情感分析和关系提取方面的潜在能力，以及自动生成的提示方法是现有探究方法的一个可行的无参数替代方法。

Oct, 2020

通过模拟优化选择语言模型提示

基于模拟优化，提出了一个两阶段框架以实现生成语言模型的提示选择，该框架能够在评估和选择阶段中构建代表提示的中等维度向量的得分模型，并证明了该框架中的顺序评估过程的一致性。数值实验证明了此框架的有效性，为实施提供了实际指导。

Apr, 2024

MPrompt: 多级提示调优在机器阅读理解中的探索

该研究提出了一种多级提示调优方法来增强机器阅读理解，通过利用任务特定、领域特定和上下文相关的提示，提高了输入语义在不同层次上的理解能力。同时，引入了独立性约束来避免冗余，并利用上下文相关知识生成合适的提示。在各种问答格式的 12 个基准测试中进行了广泛实验，相比最先进的方法，平均改进率达到了 1.94%。

Oct, 2023