PECC：问题提取与编码挑战

COLINGApr, 2024

PECC: Problem Extraction and Coding Challenges

Patrick Haller, Jonas Golde, Alan Akbik

TL;DR通过 PECC 我们引入了一个新的基准，从 Advent of Code (AoC) 和 Project Euler 派生，旨在评估大型语言模型对嵌入式问题的理解和生成可执行代码的能力，进而成为通用问题解决器。

Abstract

Recent advancements in large language models (LLMs) have showcased their exceptional abilities across various tasks, such as code generation, problem-solving and reasoning. Existing benchmarks evaluate tasks in i

large language models benchmark pecc code generation universal problem solver

发现论文，激发创造

LLM 们已经足够先进了吗？一个为大型语言模型提供挑战性问题解决基准的测试

本文介绍了一个新的基准数据集 JEEBench，用于评估 Large Language Models 的问题解决能力，其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估，发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术，GPT4 的最佳表现仍不到 40％，错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。

May, 2023

NLPBench：评估大型语言模型在解决 NLP 问题上的能力

通过独特的基准数据集 NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对 LLMs 性能有时造成损害，尤其是较小的模型 LLAMA-2（13 亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Sep, 2023

NaturalCodeBench: 检视 HumanEval 和自然用户提示对编码性能不匹配的问题

大型语言模型在生产性活动的代码生成方面表现出强大的能力。然而，当前的代码合成基准主要面向算法和数据科学的入门任务，在真实世界的编码中对具有挑战性的要求不够满足。为了填补这一差距，我们提出了 NaturalCodeBench（NCB）作为一个具有挑战性的代码基准，旨在模拟真实编码任务的复杂性和多样性。NCB 由来自在线编码服务的自然用户查询中精心挑选的 402 个高质量问题组成，涵盖了 6 个不同领域。我们还引入了半自动化流程来提高测试用例构建的效率，相比手动解决方案，效率提高了 4 倍以上。我们对 39 个大型语言模型进行了系统实验，发现在 NCB 上，具有接近 HumanEval 评分的模型之间的性能差距仍然可能很大，表明对实际代码合成场景的关注不足或在 HumanEval 上过度优化。另一方面，即使是表现最佳的 GPT-4 在 NCB 上仍然远未令人满意。评估工具和开发集可在此 URL 获取。

May, 2024

语言模型能解决奥林匹克编程吗？

计算竞赛，语言模型，USACO 基准，竞技编程，算法推理

Apr, 2024

深思熟虑：问题拓展引导提升大型语言模型的数学推理能力

使用 Problem Elaboration Prompting（PEP）改善大型语言模型（LLMs）的数学能力，在复杂推理和问题背景理解方面取得了有希望的表现。

Feb, 2024

SciBench：评估大规模语言模型的大学科学问题解决能力

最近大型语言模型 (LLM) 在许多数学基准上取得显著进展，但大多数基准只涉及初高中科目的问题和多项选择题，且仅限于有限范围的基本算术操作。为解决这些问题，本文引入了一个广泛的基准套件 SciBench，旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集：一个开放集，包含从数学、化学和物理教科书中提取的多领域的大学级科学问题；一个封闭集，包含了计算机科学和数学本科考试中的问题。基于这两个数据集，我们对两个代表性 LLM 进行了深入的基准研究，采用多种提示策略。结果表明，当前 LLM 的表现不尽如人意，综合得分仅为 35.80%。此外，通过详细的用户研究，我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明，没有一种单一的提示策略明显优于其他策略，而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展，从而最终促进科学研究和发现。

Jul, 2023

竞赛级问题对 LLMs 的有效性评估

评估大语言模型在 Codeforces 编程问题上的推理能力，发现了潜在的数据污染问题，并探索了多种方法来解决这些挑战，强调了评估 LLMs 真正推理能力的重要性和未来更强大推理能力和更好泛化性能的发展。

Dec, 2023

MHPP: 探索语言模型在基本代码生成之外的能力和局限性

最近大型语言模型（LLMs）在代码生成方面有了显著进展，但现有的基准测试无法全面评估 LLMs 在函数级代码生成能力方面的充分性。通过分析两个常见的基准测试（HumanEval 和 MBPP），我们的研究发现由于质量、难度和细度的限制，这些测试可能无法彻底评估 LLMs 的代码生成能力。因此，我们引入了 “Mostly Hard Python Problems”（MHPP）数据集，包含 140 个独特的人类策划问题。通过将自然语言和代码推理相结合，MHPP 评估了 LLMs 理解规范和限制、进行多步推理以及有效应用编码知识的能力。对 22 个 LLMs 使用 MHPP 的初步评估显示，在 HumanEval 上表现良好的模型在 MHPP 上往往无法取得类似的成功。此外，MHPP 突显出各种以前未被发现的 LLMs 的限制，让我们相信它能为更好地理解 LLMs 的能力和限制铺平道路。数据集和代码可在此链接获取。

May, 2024

L2CEval: 评估大型语言模型的语言到代码生成能力

最近，大型语言模型（LLMs），特别是那些在代码上进行预训练的模型，展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而，这些模型的语言到代码生成能力缺乏全面的评估。本研究通过 L2CEval 系统地评估了 LLMs 在 7 个任务（包括语义解析、数学推理和 Python 编程）中的语言到代码生成能力，分析了可能影响它们性能的因素，如模型大小、预训练数据、指令调整和不同的提示方法。除了评估模型性能，我们还衡量了模型的置信度校准情况，并对输出的程序进行人工评估。这使我们能够识别并分析各种任务和模型的典型失败模式。L2CEval 提供了对 LLMs 在语言到代码生成方面能力和限制的全面了解。同时，我们还发布了评估框架和所有模型输出，希望为今后在该领域的进一步研究奠定基础。

Sep, 2023

CHAMP：一个用于深入分析 LLM 数学推理能力的竞赛级数据集

我们提出了 CHAMP 数据集，该数据集包含高中数学竞赛问题，注释了概念和提示，使我们能够探索额外信息对模型性能的影响，发现模型生成的解决方案通常通过错误的推理步骤最终得出正确答案，并且大多数模型在验证这些解决方案时遇到困难。

Jan, 2024