PromptBench: 一个用于评估大型语言模型的统一库

Dec, 2023

PromptBench: 一个用于评估大型语言模型的统一库

PromptBench: A Unified Library for Evaluation of Large Language Models

Kaijie Zhu, Qinlin Zhao, Hao Chen, Jindong Wang, Xing Xie

TL;DR评估大规模语言模型（LLMs）的关键是评估其性能并减轻潜在的安全风险。本文介绍了 PromptBench，一个用于评估 LLMs 的统一库，包括关键组件：提示构建、提示工程、数据集和模型加载、对抗性提示攻击、动态评估协议和分析工具。PromptBench 旨在成为一个开放、通用和灵活的代码库，用于研究目的，可以促进在创建新的基准、部署下游应用程序和设计新的评估协议方面的原始研究。代码可在此 URL 处获得并将获得持续支持。

Abstract

The evaluation of large language models (LLMs) is crucial to assess their performance and mitigate potential security risks. In this paper, we introduce →

large language models evaluation promptbench research purposes evaluation protocols

发现论文，激发创造

PromptBench：评估大型语言模型对对抗性提示的鲁棒性

本研究使用 adversarial prompts 对 Large Language Models 进行度量，并分析了 prompt 鲁棒性及其传递性，为 prompt 组合提供了实用性建议。

Jun, 2023

LLM 的高效多提示评估

本论文介绍了 PromptEval 方法，用于在实践评估预算下估计许多提示变体的性能分布，并证明其一致地估计了性能分布，在三个著名的 LLM 基准测试中取得了实证效果。

May, 2024

E-Bench: 大型语言模型易用性评估

通过系统分析大型语言模型（LLMs）抵抗提示扰动的稳定性，本研究构建 E-Bench 模拟真实人类使用情况，并讨论了同义扰动和排版扰动的组合以及性能下降的主要原因，实验证明即便随着模型规模的增加，易用性显著提升，但仍需努力建立足够用户友好的模型。

Jun, 2024

当下现状？对多指令语言模型评估的呼吁

通过综合分析来自 3 个评估基准的 39 项任务、20 种不同的大型语言模型和 650 万个实例的单提示评估结果的脆弱性，我们提出使用一套多样的提示来评估大型语言模型，为特定的使用场景（例如 LLM 开发人员与对特定下游任务感兴趣的开发人员）设计定制化的评估指标，从而增强对当前大型语言模型真实优势和限制的准确可靠的评估。同时，我们实施了这些标准并对多个模型进行了评估，为当前大型语言模型的真正优势和限制提供了深入的见解。

Dec, 2023

简单的 LLM 提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023

StudentEval: 学生编写的大型语言模型代码提示基准

本研究设计了一个基于 Python 程序的新评测标准 StudentEval, 使用多个具体的非专家受试者编写的问题提示，对比评估了 5 种 Code LLM 模型的性能，结果表明这种评测标准是更好的模型性能判别标准。同时，研究还发现了学生提示技术的显著变异和 LLM 采样的不确定性可能会误导学生，这些发现对于使用 Code LLMs 进行教学具有影响。

Jun, 2023

探索使用提示的大型语言模型作为可解释的度量

本文描述了 IUST NLP 实验室在 Eval4NLP 2023 会议上提出的一种用于解释性评估的零样本基于提示的策略，该策略使用了大型语言模型（LLMs）来评估总结任务，并通过实验证明了 LLMs 在自然语言处理（NLP）中，特别是在总结领域具有良好的潜力。在这些实验中，使用了少样本和零样本的方法。最佳提示在测试数据的文本总结任务中与人类评估的肯德尔相关性达到了 0.477。代码和结果可以在 GitHub 上公开获取。

Nov, 2023

通过提示逼近人类对社交聊天机器人的评估

提出了一种利用 GPT 模型进行对话系统评估的新框架，通过对模型进行特定条件训练来生成评估指标，采用少量的演示和指导进行提示，可以在自动化评估过程中取得与人类评价高度相关的结果。

Apr, 2023

代码生成中使用的提示的质量评估

评估大型语言模型在代码生成方面的效果时，需要使用健全的基准测试，而不严谨的评估基准会提供虚假的性能表现。本研究分析了 9 个代码生成基准中的 3,566 个提示，以确定其中的质量问题，并研究了修复这些问题对模型性能的影响。发现评估基准主要侧重于 Python 和编码练习，且缺乏上下文依赖关系，同时还存在拼写和语法错误、表达不清晰以及不符合适当文档规范等质量问题。修复这些问题可以提高 Python 代码生成的性能，但对 Java 代码生成的改进不明显。此外，还发现 GPT-3.5-Turbo 和 CodeGen-2.5 模型可能存在数据污染问题。

Apr, 2024

Prompt2Model: 从自然语言指令生成可部署的模型

通过 Prompt2Model 方法，可以使用少量的提示，训练出性能优异、体积小 700 倍的特定目的模型，用于自然语言处理任务。

Aug, 2023