CS-Bench: 大型语言模型的全面基准，助力计算机科学掌握

Jun, 2024

CS-Bench: 大型语言模型的全面基准，助力计算机科学掌握

CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery

Xiaoshuai Song, Muxi Diao, Guanting Dong, Zhengyang Wang, Yujia Fu...

TL;DR计算机科学（CS）是人类智能复杂性的证明，深刻推动了人工智能和现代社会的发展。我们引入 CS-Bench，这是第一个专门用于评估 LLM 在计算机科学领域性能的双语（中英文）基准，包括大约 5K 个精心策划的测试样本，涵盖计算机科学的 4 个关键领域的 26 个子领域，包括各种任务形式和知识推理的划分。利用 CS-Bench，我们对 30 多个主流 LLM 进行了全面评估，揭示了 CS 性能与模型规模之间的关系，并定量分析了现有 LLM 失败的原因，并强调了知识补充和 CS 特定推理等改进方向。进一步的跨能力实验显示 LLM 在计算机科学领域能力与数学和编码能力之间存在高度相关性。此外，专注于数学和编码的专家 LLM 在几个 CS 子领域也表现出强大的性能。展望未来，我们预见 CS-Bench 将成为 LLM 在 CS 领域应用的基石，并为评估 LLM 的多样化推理能力开辟新的途径。CS-Bench 的数据和评估代码可在此 https URL 上找到。

Abstract

computer science (CS) stands as a testament to the intricacies of human intelligence, profoundly advancing the development of artificial intelligence and modern society. However, the current community of large language

computer science large language models cs-bench benchmark llm applications

发现论文，激发创造

SciBench：评估大规模语言模型的大学科学问题解决能力

最近大型语言模型 (LLM) 在许多数学基准上取得显著进展，但大多数基准只涉及初高中科目的问题和多项选择题，且仅限于有限范围的基本算术操作。为解决这些问题，本文引入了一个广泛的基准套件 SciBench，旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集：一个开放集，包含从数学、化学和物理教科书中提取的多领域的大学级科学问题；一个封闭集，包含了计算机科学和数学本科考试中的问题。基于这两个数据集，我们对两个代表性 LLM 进行了深入的基准研究，采用多种提示策略。结果表明，当前 LLM 的表现不尽如人意，综合得分仅为 35.80%。此外，通过详细的用户研究，我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明，没有一种单一的提示策略明显优于其他策略，而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展，从而最终促进科学研究和发现。

Jul, 2023

BIBench：大型语言模型的数据分析知识基准测试

为了评估大型语言模型（LLMs）在商业情报领域中数据分析能力方面的表现，研究引入了 BIBench，一种全面的基准测试。BIBench 评估 LLMs 在商业情报基础知识、知识应用和技术技能三个维度上的能力，并且包含 11 个子任务。另外，研究还开发了 BIChat，一个包含百万个数据点的领域特定数据集，用于对 LLMs 进行优化。通过提供一种对 LLMs 能力进行深入分析的度量标准，BIBench 旨在推动 LLMs 在数据分析领域的发展。

Jan, 2024

MathBench：利用分层数学基准评估 LLMs 的理论和应用水平

通过 MathBench 新的基准测试，我们能够全面评估大型语言模型在数学能力方面的表现，首次提供了一个多维度视角，从基础算术到大学数学的不同阶段评估模型的能力，旨在提高对大型语言模型在数学能力方面的评估，为其知识水平和问题解决技能提供更深入的理解。

May, 2024

PsyBench: 一个平衡且深入的心理学中文评估基准

LLMs 在各领域越来越普及，因此迫切需要改进的 NLP 基准来涵盖各个学科的必要知识。为了解决这个问题，作者提出了 psybench，这是第一个详尽覆盖研究领域所需知识的全面中文评估套件，通过多项选择题深入评估模型在心理学中的优势和劣势，并发现不同领域的性能存在显著差异，展示了测试集中知识不均衡可能导致结果偏斜的风险，仅 ChatGPT 模型的平均准确率超过 70％，表明仍有很大的改进空间。总之，psybench 将有助于对基本模型的优势和劣势进行全面评估，并在心理学领域的实际应用中提供支持。

Nov, 2023

MedBench：一个用于评估医学大型语言模型的大规模中文基准

为了解决医学大语言模型的评估工作耗时且需要大量人力的问题，我们引入了 MedBench，这是一个综合性的基准测试，包括来自医学各领域的 40,041 个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估，MedBench 建立了一个可靠的标准，揭示了医学大语言模型的能力和限制，以帮助医学研究社区。

Dec, 2023

CogBench：一个大型语言模型进入心理学实验室

大型语言模型在人工智能领域取得了显著进展，然而它们的综合评估仍具挑战性。本研究引入了 CogBench 评估工具，包含七项认知心理学实验中衍生出的十项行为度量指标，并运用这一工具对 35 个大型语言模型进行了分析。研究结果突出了模型规模和人类反馈的强化学习在性能提升和与人类行为的一致性方面的关键作用。此外，本研究还探讨了提示工程技术的影响，发现链式思路提示能够改善概率推理，而退一步思考提示则促进了基于模型的行为。

Feb, 2024

C$^{3}$Bench：一个面向大型语言模型的综合性古代汉语理解基准

通过提出 C^3bench，我们在五个主要的古文理解任务中广泛评估了 15 个代表性大语言模型的定量性能。结果表明，现有的大语言模型在古文理解任务上仍然表现不佳，相比受监督模型仍然较差。我们相信这项研究可以为未来基于大语言模型的古文理解研究提供标准基准、全面的基线和有价值的见解。

May, 2024

DevBench：软件开发综合基准

最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而，现有的基准主要关注编程的简化或隔离方面，如单文件代码生成或存储库问题调试，无法全面衡量真实世界编程活动引发的各种挑战。为此，我们提出了 DevBench，这是一个全面的基准，评估 LLMs 在软件开发生命周期的各个阶段，包括软件设计、环境设置、实施、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域，具备高质量的数据收集，并为每个任务设计和验证了仔细设计的指标。经验证实证研究表明，包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中提出的挑战。分析显示，模型在理解存储库中的复杂结构、管理编译过程和掌握高级编程概念方面存在困难。我们的发现为未来 LLMs 的真实世界编程应用的发展提供了可行的洞察。我们的基准可以在此 https URL 获取。

Mar, 2024

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

CityBench: 评估大型语言模型作为世界模型的能力

在这篇论文中，我们提出了 CityBench 作为第一个用于评估大规模语言模型在城市领域能力的系统性评估基准，通过构建 CitySim 来整合多源数据并模拟细粒度的城市动态，设计了 7 个任务用于评估 LLMs 作为城市规模世界模型在感知理解和决策制定方面的能力，在 13 个城市的 13 个知名 LLMs 上进行了广泛实验，结果表明 CityBench 的可扩展性和效果，并对未来城市领域 LLMs 的发展提供了启示。

Jun, 2024