AutoBencher:为语言模型创建突出、新颖、困难的数据集

Jul, 2024

AutoBencher:为语言模型创建突出、新颖、困难的数据集

AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models

Xiang Lisa Li, Evan Zheran Liu, Percy Liang, Tatsunori Hashimoto

TL;DR通过AutoBencher自动搜索数据集，我们创造了用于数学、多语言和知识密集型问答的数据集，这些数据集平均比现有的基准测试更新颖和更困难。同时，我们发现现有基准测试无法捕捉到语言模型中特定的知识缺口，如Gemini Pro在关于二叠纪灭绝和福特主义的问答方面表现较差，而OpenAGI-7B在关于COVID-19的问答方面表现出人意料的好。

Abstract

evaluation is critical for assessing capabilities, tracking scientific progress, and informing model selection. In this paper, we present three desiderata for a good benchmark for →

发现论文，激发创造

评估大型语言模型在高考基准测试上的表现

这篇论文介绍了GAOKAO-Benchmark，它是一个直观的基准测试，利用中国高考考试的问题作为测试样本，对大型语言模型进行评估的一种方法。我们采用基于零-shot prompts的方法来分析模型的准确率和评分率，发现ChatGPT模型在解决客观问题方面表现优异，同时也揭示了它的不足之处和改进方向，为未来大规模语言模型的评估提供了坚实的基础和有价值的见解。

May, 2023

使用语言模型作为审核器的基础模型基准测试

本文提出了一种新的基准测试框架，Language-Model-as-an-Examiner，其中LM作为一个知识丰富的考官，提出问题，并以无参考的方式评估答复，以便更全面和公平地评估模型。

Jun, 2023

AGIBench: 一个多粒度、多模态、人用参考、自动评分的大型语言模型基准

这篇论文提出了AGIBench - 一种多粒度多模态人工参考和自动评分的大型语言模型评估基准方法。

Sep, 2023

NLPBench：评估大型语言模型在解决NLP问题上的能力

通过独特的基准数据集NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对LLMs 性能有时造成损害，尤其是较小的模型LLAMA-2（13亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Sep, 2023

大型语言模型的知识边界基准测试：对模型评估的不同视角

近年来，在大型语言模型的发展方面取得了重大进展，达到了在各种任务中的显著表现。为了评估语言模型的知识能力，先前的研究提出了许多基于问答对的基准。我们认为，使用固定问题或有限的改写作为查询来评估语言模型的可靠性和全面性是不可靠的，因为语言模型对提示敏感。因此，我们引入了一个名为知识边界的新概念，用于涵盖语言模型中的提示不可知和提示敏感的知识。知识边界避免了语言模型评估中的提示敏感性，使其更可靠和稳健。为了探索给定模型的知识边界，我们提出了具有语义约束的投影梯度下降方法，这是一种新的算法，旨在识别每个知识片段的最佳提示。实验证明我们的算法在计算知识边界方面比现有方法表现出更高的性能。此外，我们还通过知识边界评估了多个语言模型在几个领域中的能力。

Feb, 2024

优化语言模型的推理能力的弱监督方法

利用自我强化机制提升大型语言模型（LLMs）的推理能力，并通过一个弱监督基准测试集 extsc{PuzzleBen}，含有 25,147 个复杂问题以及人工生成的解释，展示了利用较少的监督数据加强 LLMs 推理能力的有效方法。

May, 2024

从众包数据到高质量基准：Arena-Hard和BenchBuilder流程

通过BenchBuilder工具从Chatbot Arena收集的大量数据中提取高质量的基准测试，从而为开发者提供了一个有价值的工具，使他们能够轻松地从广泛的数据中提取高质量的基准测试，进而提升评估基准。

Jun, 2024

导航迷宫：评估和提高LLMs处理搜索问题的能力

最近，大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是，它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题，我们引入了一个名为SearchBench的新基准测试，其中包含11种独特的搜索问题类型，每种问题类型都配备了自动化流程来生成任意数量的实例，并分析LLM生成解决方案的可行性、正确性和最优性。我们发现，即使是最先进的LLM也无法完全以文本方式解决这些问题，例如GPT4只解决了1.4%的问题。SearchBench的问题要求考虑到多个解决路径以及回溯，这对自回归模型构成了重大挑战。指导LLM生成解决问题的代码会有所帮助，但是仅有轻微的改进，例如GPT4的表现提升到了11.7%。在这项工作中，我们展示了利用A*算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时，它的潜力得到了充分展现，将GPT-4的表现提升到了57%以上。

Jun, 2024

UBENCH：使用多项选择题对大型语言模型中的不确定性进行基准测试

针对大型语言模型（LLMs）的可解释性低，现有的评估系统主要考察问题解决能力而忽视了响应的不确定性，为此提出了UBENCH，一个全面评估LLM可靠性的基准，包括了3,978个多项选择题，实验结果表明UBENCH取得了最先进的性能，同时与需要多次采样的基准方法相比，其单次采样方法显著节省了计算资源。此外，基于UBENCH，我们评估了15个热门的LLM的可靠性，发现GLM4和GPT-4表现突出。我们还探讨了Chain-of-Thought提示、角色扮演提示、选项顺序和温度对LLM可靠性的影响，并分析了对不同LLM的不同效果。

Jun, 2024

metabench” -- 测量大型语言模型一般能力的稀疏基准测试

利用超过5000个大型语言模型的数据，从六个基准测试中提取出信息量最大的项目，生成一个稀疏基准测试benchmark，其组合总体积不到原始六个基准测试总体积的3%，并能以最小均方根误差重构每个原始基准测试的分数，总体积的重构均方根误差为0.8%，并且具有单一的共同因子，与总体积的斯皮尔曼相关性为0.93。

Jul, 2024