CLRS-文本算法推理语言基准测试

Jun, 2024

The CLRS-Text Algorithmic Reasoning Language Benchmark

Larisa Markeeva, Sean McLeish, Borja Ibarz, Wilfried Bounsi, Olga Kozlova...

TL;DR我们提出了CLRS-Text，它是一个基于文本的类似于算法追踪的数据集生成器，可用于在任意输入分布下生成各种具有挑战性的算法任务，并为理解能力模型为该基准提供了标准流程。

Abstract

Eliciting reasoning capabilities from language models (LMs) is a critical direction on the path towards building intelligent systems. Most recent studies dedicated to reasoning focus on out-of-distribution perfor

发现论文，激发创造

CLRS算法推理基准

学习算法的表征是机器学习的一个新兴领域，该研究旨在通过神经网络与经典算法的概念相结合。为了统一评估标准并推进统一的评估方法，我们提出了 CLRS 算法推理基准。该基准涵盖从算法导论教材中提取出来的经典算法，跨越了各种算法推理过程，包括排序、搜索、动态规划、图形算法、字符串算法和几何算法。我们进行了大量实验来展示几个流行的算法推理基线在这些任务上的表现，并进一步强调了几个开放挑战的链接。

May, 2022

LLMs与抽象推理数据集: 成功、失败及基于对象表示的重要性

本文探讨了大型语言模型在抽象推理问题中的解决能力，提出了基于物体表示的解决方案，解决了ARC数据集中的13个问题，并在1D-ARC数据集上取得了接近完美的成绩。

May, 2023

SALSA-CLRS：一种稀疏且可扩展的算法推理基准

我们介绍了对CLRS算法学习基准的扩展，重点是可扩展性和稀疏表示的利用。我们提出了SALSA-CLRS，这是当前CLRS基准的一个扩展，具有可扩展性和稀疏性的特点。我们的方法包括从原始CLRS基准中调整的算法，并引入了来自分布式和随机化算法的新问题。此外，我们对我们的基准进行了彻底的实证评估。

Sep, 2023

CORE-MM: 多模态大型语言模型的复杂开放式推理评估

我们手动策划了一个专为多模态大型语言模型（MLLMs）设计的基准数据集，重点关注复杂推理任务，通过评估中间推理步骤来准确测量其推理能力。

Nov, 2023

NPHardEval: 复杂类别下大型语言模型推理能力的动态评估基准

本研究引入了一个名为NPHardEval的新基准，旨在评估大型语言模型（LLMs）的推理能力。通过比较LLMs在复杂类别上的表现，提供了对LLMs推理能力的客观且严格的观点。此基准通过900个算法问题的广泛谱系评估LLMs的推理能力，从NP-Hard复杂类别扩展到以下较低的复杂类别，并通过每月更新数据点来减轻LLMs过拟合的风险，促进更准确可靠的能力评估。

Dec, 2023

AQA-Bench：一个用于评估LLMs顺序推理能力的互动基准

该研究介绍了AQA-Bench，这是一个评估大规模语言模型在算法环境中的顺序推理能力的新型基准。我们的评估基准的关键特点在于其互动评估协议，通过深度优先搜索等算法，每个节点的连接边的可用性取决于模型对该节点的遍历方式，从而需要LLM有效地记住访问过的节点并策略性地进行后续移动。我们全面构建了AQA-Bench，并使用二分搜索、深度优先搜索和广度优先搜索来评估12个不同LLM的顺序推理能力。我们的研究发现了一些有趣的结果：（1）像GPT-4和Gemini这样的闭源模型通常表现出较强的顺序推理能力，明显优于开源LLM。（2）提供简单的交互式示例可能会无意中损害少样本性能。（3）在遵循最优策略的前继步骤数量非常有限的情况下，可以大幅提升小模型的性能。（4）性能和模型大小之间的缩放相关性并不总是显著的，有时甚至显示出相反的趋势。我们希望我们的研究能推动未来对于推进对LLM顺序推理能力的理解和增强的研究。代码可在链接https URL找到。

Feb, 2024

使用大型语言模型执行自描述算法：一项调查研究

研究表明，目前的大型语言模型（LLMs），特别是GPT-4，能够有效地执行用自然语言描述的程序，只要不涉及繁重的数值计算。

Feb, 2024

ACCORD: 缩小常识可测性差距

通过受控的多跳反事实，我们提出了一个框架和基准套件 $ exttt{ACCORD}$，用于解开大规模语言模型（LLMs）的常识基础和推理能力。通过引入形式化元素到常识推理中，$ exttt{ACCORD}$可以明确控制和量化推理复杂性，超越典型的 1 或 2 跳。基准测试最先进的 LLMs（包括 GPT-4o（2024-05-13）、Llama-3-70B-Instruct 和 Mixtral-8x22B-Instruct-v0.1）显示性能仅随着适度扩展而降至随机机会，为改进留下了充足的余地。我们公布了此工作中测试的基准套件的排行榜，以及用于自动生成更复杂基准测试的代码。

Jun, 2024

CS-Bench: 大型语言模型的全面基准，助力计算机科学掌握

计算机科学（CS）是人类智能复杂性的证明，深刻推动了人工智能和现代社会的发展。我们引入CS-Bench，这是第一个专门用于评估LLM在计算机科学领域性能的双语（中英文）基准，包括大约5K个精心策划的测试样本，涵盖计算机科学的4个关键领域的26个子领域，包括各种任务形式和知识推理的划分。利用CS-Bench，我们对30多个主流LLM进行了全面评估，揭示了CS性能与模型规模之间的关系，并定量分析了现有LLM失败的原因，并强调了知识补充和CS特定推理等改进方向。进一步的跨能力实验显示LLM在计算机科学领域能力与数学和编码能力之间存在高度相关性。此外，专注于数学和编码的专家LLM在几个CS子领域也表现出强大的性能。展望未来，我们预见CS-Bench将成为LLM在CS领域应用的基石，并为评估LLM的多样化推理能力开辟新的途径。CS-Bench的数据和评估代码可在此https URL上找到。

Jun, 2024

CLR-Fact：评估大语言模型在事实知识上的复杂逻辑推理能力

本研究解决了大语言模型在复杂逻辑推理中的能力不足。通过自动生成复杂推理问题的新基准，我们发现通过显式的思维链提示可以显著提高模型的推理性能。此外，我们揭示了模型在集合并运算方面表现良好，但在集合交集运算方面面临重大挑战，这对于逻辑推理至关重要。

Jul, 2024