只需100个实例：通过测试少量实例预测新LLM在未见数据上的成功

Sep, 2024

只需100个实例：通过测试少量实例预测新LLM在未见数据上的成功

100 instances is all you need: predicting the success of a new LLM on unseen data by testing on a few instances

Lorenzo Pacchiardi, Lucy G. Cheke, José Hernández-Orallo

TL;DR本研究解决了在新LLM上评估性能所需的大量任务实例评估问题。本文提出了一种新方法，通过测试少量参考实例并训练通用评估器，基于以前的LLM评估结果预测新LLM的性能。我们的实验证明，该方法在同一分布的实例上表现出与特定LLM评估器相当的效果，展现出显著的实用价值。

Abstract

Predicting the performance of LLMs on individual task instances is essential to ensure their reliability in high-stakes applications. To do so, a possibility is to evaluate the considered LLM on a set of task instances and train an →

发现论文，激发创造

大型语言模型能力的可预测性研究——以 BIG-bench 为例

研究了大型语言模型预测能力的可预测性问题并在 BIG-bench 实验记录上进行了实证研究，发现大型语言模型的性能可以以 5% 以下的 RMSE 进行准确预测，并提出了寻找一个信息性子集用于评估新模型家族的问题，整合了 BIG-bench Hard 的信息，并将规模缩小了三倍。

May, 2023

面向优化的大型语言模型

评估LLM在各种任务和数据大小上的优化能力，并引入了三个不同的指标来全面评估任务性能。通过应用这些指标，我们观察到LLM在处理小规模样本时表现出很强的优化能力，但其性能受到数据大小和值等因素的显著影响，强调了对LLM的优化任务领域进行进一步研究的重要性。

Oct, 2023

自我评估适配提高LLMs的选择性预测能力

基于自评估的自适应选可信度模型，通过使用参数高效调整适应大型语言模型到特定任务，提高其自评估能力，以改善选择性预测性能。在多种问答数据集上的评估结果显示，该方法优于现有的选择预测方法。

Oct, 2023

AI增强预测：LLM助理提高人类预测准确性

该研究探讨了大型语言模型（LLMs）在预测任务中增强判断能力的潜力，研究结果表明，与对照组相比，LLM辅助可以显著提高预测准确性，即使是面对回答不确定的认知要求高的任务，使用LLM助手（即使是倾向性的助手）仍然可以作为有益的决策辅助。

Feb, 2024

AQA-Bench：一个用于评估LLMs顺序推理能力的互动基准

该研究介绍了AQA-Bench，这是一个评估大规模语言模型在算法环境中的顺序推理能力的新型基准。我们的评估基准的关键特点在于其互动评估协议，通过深度优先搜索等算法，每个节点的连接边的可用性取决于模型对该节点的遍历方式，从而需要LLM有效地记住访问过的节点并策略性地进行后续移动。我们全面构建了AQA-Bench，并使用二分搜索、深度优先搜索和广度优先搜索来评估12个不同LLM的顺序推理能力。我们的研究发现了一些有趣的结果：（1）像GPT-4和Gemini这样的闭源模型通常表现出较强的顺序推理能力，明显优于开源LLM。（2）提供简单的交互式示例可能会无意中损害少样本性能。（3）在遵循最优策略的前继步骤数量非常有限的情况下，可以大幅提升小模型的性能。（4）性能和模型大小之间的缩放相关性并不总是显著的，有时甚至显示出相反的趋势。我们希望我们的研究能推动未来对于推进对LLM顺序推理能力的理解和增强的研究。代码可在链接https URL找到。

Feb, 2024

LLM中大规模评估结果的全面重新评估：多方面的统计方法

通过应用ANOVA、Tukey HSD测试、GAMM和聚类技术，本研究对LLMs进行了彻底重新审视，针对当前评估方法中的不足之处。我们的研究利用了大量的评估结果数据集，引入了全面的统计方法，为解析LLM性能数据提供了一个强大而透明的方法。与先前的研究结果相反，我们的结果挑战了关于新兴能力以及给定训练类型和架构在LLMs中的影响的假设。本研究对LLM的性能和潜力提供了一个细致入微的视角，通过提供简单可靠的方法来审查和重新评估LLM的性能数据。

Mar, 2024

同时评估LLMs中的多个问题：评估LLM能力的新范式

当前的LLM评估主要通过包含单个问题的提示进行评估。我们提出多问题评估作为研究LLM的多问题处理能力的额外方法。我们在这方面进行了系统研究，通过全面考察4个相关类型的任务上的7个LLM，这些任务是基于6个分类基准构建的。我们发现LLM具备良好的多问题解决能力：它们在多问题任务上的表现通常接近或与单问题任务一样好。此外，与常见预期相反，它们在长输入下通常不会出现位置偏差。这使得多问题提示成为一种简单且成本效益高的实用方法。然而，我们的结果还强烈表明LLM缺乏真正的理解：在两个索引选择任务中，它们的表现显著不如在多问题任务中，尽管它们在一般情况下确实能够进行索引选择。

Jun, 2024

LiveBench：一个具有挑战性和无污染的LLM基准测试

为了解决测试集污染和评估中的偏见问题，研究引入了一种新的测试基准 LiveBench，该基准通过包含来自最新信息源的问题和按照客观真实值自动评分的答案，来评估不同大小的封闭源和开源模型的能力。

Jun, 2024

在测试时间计算中的最佳扩展比扩大模型参数更有效

本研究解决了在大型语言模型（LLM）测试时间计算的规模问题，探讨如何利用固定的计算资源显著提高模型在复杂提示上的表现。论文提出了一种“计算最优”的扩展策略，能够根据提示的难度动态分配计算资源，经过验证，此策略比现有基准提高了超过4倍的计算效率，并在特定情况下超越了14倍大模型的性能。

Aug, 2024

我们能依赖大型语言模型吗？固定效应谬误与GPT-4能力的主张

本文探讨了对大型语言模型（LLM）能力的评估问题，揭示了在多个确定性任务上GPT-4的性能数据。研究发现，任务提示和输入参数的微小修改会导致显著的性能差异，说明量化LLM能力的努力容易受到固定效应谬误的影响，这使得人们在预测LLM对输入修改的反应时容易产生误导。

Sep, 2024