同时评估 LLMs 中的多个问题：评估 LLM 能力的新范式

Jun, 2024

同时评估 LLMs 中的多个问题：评估 LLM 能力的新范式

Evaluating LLMs with Multiple Problems at once: A New Paradigm for Probing LLM Capabilities

Zhengxiang Wang, Jordan Kodner, Owen Rambow

TL;DR当前的 LLM 评估主要通过包含单个问题的提示进行评估。我们提出多问题评估作为研究 LLM 的多问题处理能力的额外方法。我们在这方面进行了系统研究，通过全面考察 4 个相关类型的任务上的 7 个 LLM，这些任务是基于 6 个分类基准构建的。我们发现 LLM 具备良好的多问题解决能力：它们在多问题任务上的表现通常接近或与单问题任务一样好。此外，与常见预期相反，它们在长输入下通常不会出现位置偏差。这使得多问题提示成为一种简单且成本效益高的实用方法。然而，我们的结果还强烈表明 LLM 缺乏真正的理解：在两个索引选择任务中，它们的表现显著不如在多问题任务中，尽管它们在一般情况下确实能够进行索引选择。

Abstract

Current llm evaluation predominantly performs evaluation with prompts comprising single problems. We propose multi-problem evaluation as an additional approach to study the multiple problem handling capabilities

llm evaluation multi-problem evaluation task types index selection tasks understanding

发现论文，激发创造

当下现状？对多指令语言模型评估的呼吁

通过综合分析来自 3 个评估基准的 39 项任务、20 种不同的大型语言模型和 650 万个实例的单提示评估结果的脆弱性，我们提出使用一套多样的提示来评估大型语言模型，为特定的使用场景（例如 LLM 开发人员与对特定下游任务感兴趣的开发人员）设计定制化的评估指标，从而增强对当前大型语言模型真实优势和限制的准确可靠的评估。同时，我们实施了这些标准并对多个模型进行了评估，为当前大型语言模型的真正优势和限制提供了深入的见解。

Dec, 2023

导航迷宫：评估和提高 LLMs 处理搜索问题的能力

最近，大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是，它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题，我们引入了一个名为 SearchBench 的新基准测试，其中包含 11 种独特的搜索问题类型，每种问题类型都配备了自动化流程来生成任意数量的实例，并分析 LLM 生成解决方案的可行性、正确性和最优性。我们发现，即使是最先进的 LLM 也无法完全以文本方式解决这些问题，例如 GPT4 只解决了 1.4% 的问题。SearchBench 的问题要求考虑到多个解决路径以及回溯，这对自回归模型构成了重大挑战。指导 LLM 生成解决问题的代码会有所帮助，但是仅有轻微的改进，例如 GPT4 的表现提升到了 11.7%。在这项工作中，我们展示了利用 A * 算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时，它的潜力得到了充分展现，将 GPT-4 的表现提升到了 57% 以上。

Jun, 2024

LLMs 错误的简单问题

我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题，它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误，并强调了更好的训练方法的必要性。我们的研究结果强调了将大型语言模型与人类推理和常识连接起来的重要性，并强调了人在企业应用中的必要性。我们希望这项工作为未来的研究提供了增强新模型的实用性和可靠性的途径。

May, 2024

TELeR: 用于复杂任务基准测试的 LLM 提示的通用分类

提出了一种通用分类法，以设计具有特定属性的提示来执行广泛的复杂任务，从而解决了使用不同提示类型 / 样式和提示中提供不同程度细节时 LLMs 性能差异的问题，使未来的基准研究能够报告所使用的特定类别的提示，启用对不同研究的有意义的比较，并通过这种分类法建立共同标准，研究人员将能够更准确地得出关于 LLMs 在特定复杂任务上的表现的结论。

May, 2023

NLPBench：评估大型语言模型在解决 NLP 问题上的能力

通过独特的基准数据集 NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对 LLMs 性能有时造成损害，尤其是较小的模型 LLAMA-2（13 亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Sep, 2023

基于 LLM 的评估者是否混淆了 NLG 质量标准？

通过设计和实际测试，我们发现 LLMs 在自然语言生成（NLG）评估中存在混淆不同评估标准的问题，这降低了它们的可靠性。为了进一步验证，我们首先总结了一个清晰的层次分类系统，包括 11 个常见方面的相关标准，然后设计了 18 种针对不同 LLMs 评估行为的攻击方法，并进行人工标注验证，揭示了 LLMs 固有的混淆问题以及其他值得关注的现象，从而为基于 LLMs 的评估提出了进一步的研究和改进的必要性。

Feb, 2024

任务导向 LLM 系统设计中的可能性暴政：一个范围调查

这项调研重点关注任务导向的 LLM 系统的设计空间，通过思考实验对不同的 LLM 系统配置性能进行探索，并对 LLM 增强、提示技术和不确定性估计等设计参数进行讨论，提出了七个猜想以指导未来的研究努力。

Dec, 2023

面向优化的大型语言模型

评估 LLM 在各种任务和数据大小上的优化能力，并引入了三个不同的指标来全面评估任务性能。通过应用这些指标，我们观察到 LLM 在处理小规模样本时表现出很强的优化能力，但其性能受到数据大小和值等因素的显著影响，强调了对 LLM 的优化任务领域进行进一步研究的重要性。

Oct, 2023

竞赛级问题对 LLMs 的有效性评估

评估大语言模型在 Codeforces 编程问题上的推理能力，发现了潜在的数据污染问题，并探索了多种方法来解决这些挑战，强调了评估 LLMs 真正推理能力的重要性和未来更强大推理能力和更好泛化性能的发展。

Dec, 2023

评估大型语言模型的推理能力

大型语言模型（LLMs）的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现，这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了后续实验，探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异，但总体性能并未提高。此外，我们还发现性能与展示格式和内容以出人意料的方式相互作用，与人类表现有所不同。总的来说，我们的结果表明 LLMs 具有独特的推理偏见，其只能部分预测人类的推理表现。

Sep, 2023