我们能依赖大型语言模型吗？固定效应谬误与GPT-4能力的主张

Sep, 2024

我们能依赖大型语言模型吗？固定效应谬误与GPT-4能力的主张

Can We Count on LLMs? The Fixed-Effect Fallacy and Claims of GPT-4 Capabilities

Thomas Ball, Shuo Chen, Cormac Herley

TL;DR本文探讨了对大型语言模型（LLM）能力的评估问题，揭示了在多个确定性任务上GPT-4的性能数据。研究发现，任务提示和输入参数的微小修改会导致显著的性能差异，说明量化LLM能力的努力容易受到固定效应谬误的影响，这使得人们在预测LLM对输入修改的反应时容易产生误导。

Abstract

In this paper we explore evaluation of LLM capabilities. We present measurements of GPT-4 performance on several deterministic tasks; each task involves a basic calculation and takes as input parameter some eleme

发现论文，激发创造

LLM认知能力的高效测量：自适应测试视角

提出了一种采用自适应测试框架评估大型语言模型的方法，该方法可以根据模型的表现动态调整测试问题的难度，从而更准确地估计模型的能力，使得大型语言模型可以与人类进行比较，同时该方法可以使用更少的问题，从而更加高效。对ChatGPT等6种模型进行了细粒度诊断，并通过不同测试发现GPT4模型在主题知识、数理推理和编程方面表现优异，可以达到中等水平学生的认知能力水平。

Jun, 2023

面向优化的大型语言模型

评估LLM在各种任务和数据大小上的优化能力，并引入了三个不同的指标来全面评估任务性能。通过应用这些指标，我们观察到LLM在处理小规模样本时表现出很强的优化能力，但其性能受到数据大小和值等因素的显著影响，强调了对LLM的优化任务领域进行进一步研究的重要性。

Oct, 2023

挑战LLMs的推理能力：揭示LLMs中的认知深度的基准测试

我们引入了一种新颖的评估范式来评估大型语言模型，这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷，传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估，能够有效区分模型之间的认知能力。例如，在我们的基准测试中，GPT-4的性能比GPT3-5准确率高十倍。这种新范式的重要性在于它能够揭示当前基准测试（如GSM8K）未能发现的语言模型的潜在认知缺陷，这是由于它们的饱和度和在不同推理能力之间缺乏有效区分。我们的综合分析包括来自开源和闭源社区的几个最先进的数学模型，揭示了它们的训练和评估方法的根本缺陷。本文不仅主张在评估LLMs时进行范式转变，而且对于关于人工通用智能（AGI）的持续讨论也作出了贡献。通过推广类似于我们的元推理评估方法的采用，我们旨在促进对LLM真正认知能力的更准确评估。

Dec, 2023

元排名：不太强大的语言模型能够进行单一回应判断

我们提出了一种名为Meta Ranking (MR)的新方法，通过比较目标查询-响应对与参考查询-响应对，使能力较弱的大语言模型能够有效判断个别响应的可靠性，并且在推理任务中实现了出色的误差检测效果，可以用于改进大语言模型的性能，如查询路由和迭代训练数据过滤等实际应用中。

Feb, 2024

是否需要更多的LLM调用？朝着扩展化合物推理系统的法则迈进

使用复合系统进行大型语言模型调用和聚合以取得最新语言任务的最优结果，本文研究了调用次数对复合推理系统性能的影响，并发现投票推理系统的性能随调用次数的增加呈现非单调变化，这是由于任务中存在易难不同的查询难度所导致，进一步提出了投票推理系统的缩放规律，并验证了该规律可以预测推理系统的性能和最佳调用次数。

Mar, 2024

量化LLM在规模和精度方面的能力

通过对模型规模和量化的综合评估，发现在各种任务中，规模较大的模型通常优于规模较小的模型，同时大规模模型对于精度降低有很好的韧性，可在较小的内存要求下保持高准确性，因此它们比使用更小的模型更好。

May, 2024

GPT-ology，计算模型，硅采样：认知科学中的LLMs如何思考？

大型语言模型在认知科学领域引起了轰动，现在是时候对用于在这些模型或人类认知中进行科学推理的各种研究范式进行总结。我们回顾了几种新兴的研究范式- GPT-ology、LLMs作为计算模型以及“硅采样”，并回顾了最近在这些范式下使用LLMs的论文。在这样做的过程中，我们讨论了它们的主张以及在这些不同范式下进行科学推理的挑战。我们强调了几个关于LLMs需要解决的重要问题，以推动我们的科学发展: 闭源 vs 开源模型;（缺乏的）训练数据; 并且在LLM研究中的可重复性, 包括形成新任务“超参数”（如指令和提示）的约定。

Jun, 2024

同时评估LLMs中的多个问题：评估LLM能力的新范式

当前的LLM评估主要通过包含单个问题的提示进行评估。我们提出多问题评估作为研究LLM的多问题处理能力的额外方法。我们在这方面进行了系统研究，通过全面考察4个相关类型的任务上的7个LLM，这些任务是基于6个分类基准构建的。我们发现LLM具备良好的多问题解决能力：它们在多问题任务上的表现通常接近或与单问题任务一样好。此外，与常见预期相反，它们在长输入下通常不会出现位置偏差。这使得多问题提示成为一种简单且成本效益高的实用方法。然而，我们的结果还强烈表明LLM缺乏真正的理解：在两个索引选择任务中，它们的表现显著不如在多问题任务中，尽管它们在一般情况下确实能够进行索引选择。

Jun, 2024

在测试时间计算中的最佳扩展比扩大模型参数更有效

本研究解决了在大型语言模型（LLM）测试时间计算的规模问题，探讨如何利用固定的计算资源显著提高模型在复杂提示上的表现。论文提出了一种“计算最优”的扩展策略，能够根据提示的难度动态分配计算资源，经过验证，此策略比现有基准提高了超过4倍的计算效率，并在特定情况下超越了14倍大模型的性能。

Aug, 2024

揭示大型语言模型的盲点：自我挑战框架

本研究旨在解决大型语言模型（LLMs）在评估其局限性方面的不足。我们提出了一种自我挑战的评估框架，通过引导LLMs发现自身错误并总结出新模式，结合人类反馈，生成更具挑战性的数据。研究表明，仅有44.96%的实例能被模型正确回答，此框架为LLMs的动态评估提供了新思路。

Aug, 2024