基于 Shapley 值的简要估值

Dec, 2023

Prompt Valuation Based on Shapley Values

Hanxi Liu, Xiaokai Mao, Haocheng Xia, Jian Lou, Jinfei Liu

TL;DR利用 Shapley 值方法，我们有效地区分并量化每个提示的贡献，从而确认其在各种任务中的有效性。

Abstract

large language models (LLMs) excel on new tasks without additional training, simply by providing natural language prompts that demonstrate how the task should be performed. →

large language models prompt ensemble methods shapley value prompts ensemble methods

发现论文，激发创造

LLM 的高效多提示评估

本论文介绍了 PromptEval 方法，用于在实践评估预算下估计许多提示变体的性能分布，并证明其一致地估计了性能分布，在三个著名的 LLM 基准测试中取得了实证效果。

May, 2024

等等，全都是令牌噪音？一直以来都是：使用 Shapley 值解释 LLM 行为

利用合作博弈理论中的 Shapley 值独特方法解读大型语言模型的行为和量化每个提示组件对模型输出的相对贡献，揭示了被称为 “标记噪声” 效应的现象，该现象引发对大型语言模型在人类行为模拟中获得见解的健壮性和普适性的担忧。该研究强调在依赖大型语言模型作为研究对象替代品之前，需要更加细致地了解驱动大型语言模型响应的因素，并强调研究人员在报告结果时受到特定提示模板的条件限制，并要谨慎地在人类行为和大型语言模型之间绘制并行之间的类比。

Mar, 2024

简单的 LLM 提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023

探索使用提示的大型语言模型作为可解释的度量

本文描述了 IUST NLP 实验室在 Eval4NLP 2023 会议上提出的一种用于解释性评估的零样本基于提示的策略，该策略使用了大型语言模型（LLMs）来评估总结任务，并通过实验证明了 LLMs 在自然语言处理（NLP）中，特别是在总结领域具有良好的潜力。在这些实验中，使用了少样本和零样本的方法。最佳提示在测试数据的文本总结任务中与人类评估的肯德尔相关性达到了 0.477。代码和结果可以在 GitHub 上公开获取。

Nov, 2023

探究预训练语言模型的抽奖提示

本文提出了一种基于逐个样例级别的 Prompt 搜索方法，然后使用 Prompt 集成方法将搜索到的强彩票 Prompts 推广到未见过的数据上。实验结果表明，该方法与其他无梯度、无优化基线方法相比能够取得可比的结果。

May, 2023

大型语言模型的高效提示方法综述

在这篇论文中，我们对高效提示的各种方法进行了全面的概述，包括使用高效计算和高效设计进行提示的方法，重点关注未来的研究方向。

Apr, 2024

大型语言模型的自动提示选择

自动选择给定输入的最佳提示，克服手动设计有效提示的挑战，通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器，并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。

Apr, 2024

情绪刺激：通过心理学为大型语言模型提升增强

大语言模型通过 EmotionPrompt 在情绪智能方面进行性能提升，取得了显著的成果，有助于人类与语言模型的跨学科知识交互。

Jul, 2023

在零样本设置中评估多项选择任务的提示

本文研究大型语言模型如何通过自然语言提示实现令人印象深刻的零 - shot 性能，归纳和标准化提示任务属性后，发现包含选项和使用未在预训练中使用的提示可以显著提高性能。

Mar, 2022

通过困惑度估计解密语言模型中的提示

通过对语言模型的提示和降低困惑度等优化，可以改善模型在 zero-shot 学习中的性能。

Dec, 2022