基于 Shapley 值的简要估值
本论文介绍了 PromptEval 方法,用于在实践评估预算下估计许多提示变体的性能分布,并证明其一致地估计了性能分布,在三个著名的 LLM 基准测试中取得了实证效果。
May, 2024
利用合作博弈理论中的 Shapley 值独特方法解读大型语言模型的行为和量化每个提示组件对模型输出的相对贡献,揭示了被称为 “标记噪声” 效应的现象,该现象引发对大型语言模型在人类行为模拟中获得见解的健壮性和普适性的担忧。该研究强调在依赖大型语言模型作为研究对象替代品之前,需要更加细致地了解驱动大型语言模型响应的因素,并强调研究人员在报告结果时受到特定提示模板的条件限制,并要谨慎地在人类行为和大型语言模型之间绘制并行之间的类比。
Mar, 2024
研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式,提出了一种新颖的框架,以实现对对话的鲁棒性和多语言性评估能力,并在多个基准测试中取得了最先进的成果,并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅,证明了提示性大语言模型的评估能力。
Aug, 2023
本文描述了 IUST NLP 实验室在 Eval4NLP 2023 会议上提出的一种用于解释性评估的零样本基于提示的策略,该策略使用了大型语言模型(LLMs)来评估总结任务,并通过实验证明了 LLMs 在自然语言处理(NLP)中,特别是在总结领域具有良好的潜力。在这些实验中,使用了少样本和零样本的方法。最佳提示在测试数据的文本总结任务中与人类评估的肯德尔相关性达到了 0.477。代码和结果可以在 GitHub 上公开获取。
Nov, 2023
本文提出了一种基于逐个样例级别的 Prompt 搜索方法,然后使用 Prompt 集成方法将搜索到的强彩票 Prompts 推广到未见过的数据上。实验结果表明,该方法与其他无梯度、无优化基线方法相比能够取得可比的结果。
May, 2023
自动选择给定输入的最佳提示,克服手动设计有效提示的挑战,通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器,并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。
Apr, 2024
本文研究大型语言模型如何通过自然语言提示实现令人印象深刻的零 - shot 性能,归纳和标准化提示任务属性后,发现包含选项和使用未在预训练中使用的提示可以显著提高性能。
Mar, 2022