当下现状？对多指令语言模型评估的呼吁

Dec, 2023

当下现状？对多指令语言模型评估的呼吁

State of What Art? A Call for Multi-Prompt LLM Evaluation

Moran Mizrahi, Guy Kaplan, Dan Malkin, Rotem Dror, Dafna Shahaf...

TL;DR通过综合分析来自 3 个评估基准的 39 项任务、20 种不同的大型语言模型和 650 万个实例的单提示评估结果的脆弱性，我们提出使用一套多样的提示来评估大型语言模型，为特定的使用场景（例如 LLM 开发人员与对特定下游任务感兴趣的开发人员）设计定制化的评估指标，从而增强对当前大型语言模型真实优势和限制的准确可靠的评估。同时，我们实施了这些标准并对多个模型进行了评估，为当前大型语言模型的真正优势和限制提供了深入的见解。

Abstract

Recent advances in large language models (LLMs) have led to the development of various evaluation benchmarks. These benchmarks typically rely on a single instruction template for evaluating all LLMs on a specific

large language models evaluation benchmarks evaluation metrics llm capabilities llm developers

发现论文，激发创造

简单的 LLM 提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023

LLM 的高效多提示评估

本论文介绍了 PromptEval 方法，用于在实践评估预算下估计许多提示变体的性能分布，并证明其一致地估计了性能分布，在三个著名的 LLM 基准测试中取得了实证效果。

May, 2024

大型语言模型的文本到 SQL 能力基准测试：全面评估

通过构建新数据集和提出五个评估任务，全面评估不同方法在文本到 SQL 过程中的性能，揭示了大型语言模型之间的性能差异，并提出了针对每个任务的最佳上下文学习解决方案，为改进基于大型语言模型的文本到 SQL 系统的开发提供了有价值的见解。

Mar, 2024

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

EvalLM: 大型语言模型提示的交互式评估及用户定义准则

通过评估多个用户定义的标准，使用自然语言描述系统的评估器提供的反馈，从而使开发人员能够通过迭代改进引导语。与手动评估相比，EvalLM 有助于参与者构建更多样化的标准，检查两倍数量的输出，并在减少 59% 的修订次数后获得令人满意的引导语。该研究可扩展到模型评估和特定应用环境中的对齐。

Sep, 2023

2023 Eval4NLP 子任务：使用促使大型语言模型作为解释性⽅法的度量

介绍了 Eval4NLP 2023 共享任务，要求参与者在机器翻译和摘要评估中探索提示和分数提取，并评估了参与者的方法。在没有 fine-tuning 的限制下，最佳系统的表现与使用更大模型开发的最新的无参考度量标准（包括 GEMBA 和 Comet-Kiwi-XXL）相媲美甚至超过，并对 LLMs 的解释的可行性进行了小规模人类评估。

Oct, 2023

StudentEval: 学生编写的大型语言模型代码提示基准

本研究设计了一个基于 Python 程序的新评测标准 StudentEval, 使用多个具体的非专家受试者编写的问题提示，对比评估了 5 种 Code LLM 模型的性能，结果表明这种评测标准是更好的模型性能判别标准。同时，研究还发现了学生提示技术的显著变异和 LLM 采样的不确定性可能会误导学生，这些发现对于使用 Code LLMs 进行教学具有影响。

Jun, 2023

MIA-Bench: 多模态 LLMs 的更好指令遵循评估

我们引入了 MIA-Bench，一个新的基准测试，旨在评估多模态大型语言模型在其严格遵循复杂指令方面的能力。通过评估各种最先进的多模态大型语言模型，我们发现性能存在显著差异，突出了指令准确性方面的改进空间。此外，我们创建了额外的训练数据，并探索监督微调来提高模型在严格遵循指令的能力，而不牺牲其他任务的性能。我们希望这个基准测试不仅可用于测量多模态大型语言模型对指令的遵循程度，还能指导未来的多模态大型语言模型训练方法的发展。

Jul, 2024

E-Bench: 大型语言模型易用性评估

通过系统分析大型语言模型（LLMs）抵抗提示扰动的稳定性，本研究构建 E-Bench 模拟真实人类使用情况，并讨论了同义扰动和排版扰动的组合以及性能下降的主要原因，实验证明即便随着模型规模的增加，易用性显著提升，但仍需努力建立足够用户友好的模型。

Jun, 2024

评价大型语言模型在指令遵循方面的表现

这篇研究通过引入一个具有挑战性的元评估基准 LMMBar，调查了大型语言模型 (LLMs) 在评估指导遵循生成文本方面的效力，发现不同评估器对 LMMBar 的性能表现不同，最高分的评估器仍有改进的空间，并提出了一套新颖的提示策略来缩小 LLM 和人类评估器之间的差距。通过 LLMBar 希望提供对 LLM 评估器的更多洞察，并促进未来开发更好的指导遵循模型的研究。

Oct, 2023