CLRS-文本算法推理语言基准测试
学习算法的表征是机器学习的一个新兴领域,该研究旨在通过神经网络与经典算法的概念相结合。为了统一评估标准并推进统一的评估方法,我们提出了 CLRS 算法推理基准。该基准涵盖从算法导论教材中提取出来的经典算法,跨越了各种算法推理过程,包括排序、搜索、动态规划、图形算法、字符串算法和几何算法。我们进行了大量实验来展示几个流行的算法推理基线在这些任务上的表现,并进一步强调了几个开放挑战的链接。
May, 2022
本文探讨了大型语言模型在抽象推理问题中的解决能力,提出了基于物体表示的解决方案,解决了ARC数据集中的13个问题,并在1D-ARC数据集上取得了接近完美的成绩。
May, 2023
我们介绍了对CLRS算法学习基准的扩展,重点是可扩展性和稀疏表示的利用。我们提出了SALSA-CLRS,这是当前CLRS基准的一个扩展,具有可扩展性和稀疏性的特点。我们的方法包括从原始CLRS基准中调整的算法,并引入了来自分布式和随机化算法的新问题。此外,我们对我们的基准进行了彻底的实证评估。
Sep, 2023
我们手动策划了一个专为多模态大型语言模型(MLLMs)设计的基准数据集,重点关注复杂推理任务,通过评估中间推理步骤来准确测量其推理能力。
Nov, 2023
本研究引入了一个名为NPHardEval的新基准,旨在评估大型语言模型(LLMs)的推理能力。通过比较LLMs在复杂类别上的表现,提供了对LLMs推理能力的客观且严格的观点。此基准通过900个算法问题的广泛谱系评估LLMs的推理能力,从NP-Hard复杂类别扩展到以下较低的复杂类别,并通过每月更新数据点来减轻LLMs过拟合的风险,促进更准确可靠的能力评估。
Dec, 2023
该研究介绍了AQA-Bench,这是一个评估大规模语言模型在算法环境中的顺序推理能力的新型基准。我们的评估基准的关键特点在于其互动评估协议,通过深度优先搜索等算法,每个节点的连接边的可用性取决于模型对该节点的遍历方式,从而需要LLM有效地记住访问过的节点并策略性地进行后续移动。我们全面构建了AQA-Bench,并使用二分搜索、深度优先搜索和广度优先搜索来评估12个不同LLM的顺序推理能力。我们的研究发现了一些有趣的结果:(1)像GPT-4和Gemini这样的闭源模型通常表现出较强的顺序推理能力,明显优于开源LLM。(2)提供简单的交互式示例可能会无意中损害少样本性能。(3)在遵循最优策略的前继步骤数量非常有限的情况下,可以大幅提升小模型的性能。(4)性能和模型大小之间的缩放相关性并不总是显著的,有时甚至显示出相反的趋势。我们希望我们的研究能推动未来对于推进对LLM顺序推理能力的理解和增强的研究。代码可在链接https URL找到。
Feb, 2024
通过受控的多跳反事实,我们提出了一个框架和基准套件 $ exttt{ACCORD}$,用于解开大规模语言模型(LLMs)的常识基础和推理能力。通过引入形式化元素到常识推理中,$ exttt{ACCORD}$可以明确控制和量化推理复杂性,超越典型的 1 或 2 跳。基准测试最先进的 LLMs(包括 GPT-4o(2024-05-13)、Llama-3-70B-Instruct 和 Mixtral-8x22B-Instruct-v0.1)显示性能仅随着适度扩展而降至随机机会,为改进留下了充足的余地。我们公布了此工作中测试的基准套件的排行榜,以及用于自动生成更复杂基准测试的代码。
Jun, 2024
计算机科学(CS)是人类智能复杂性的证明,深刻推动了人工智能和现代社会的发展。我们引入CS-Bench,这是第一个专门用于评估LLM在计算机科学领域性能的双语(中英文)基准,包括大约5K个精心策划的测试样本,涵盖计算机科学的4个关键领域的26个子领域,包括各种任务形式和知识推理的划分。利用CS-Bench,我们对30多个主流LLM进行了全面评估,揭示了CS性能与模型规模之间的关系,并定量分析了现有LLM失败的原因,并强调了知识补充和CS特定推理等改进方向。进一步的跨能力实验显示LLM在计算机科学领域能力与数学和编码能力之间存在高度相关性。此外,专注于数学和编码的专家LLM在几个CS子领域也表现出强大的性能。展望未来,我们预见CS-Bench将成为LLM在CS领域应用的基石,并为评估LLM的多样化推理能力开辟新的途径。CS-Bench的数据和评估代码可在此https URL上找到。
Jun, 2024
本研究解决了大语言模型在复杂逻辑推理中的能力不足。通过自动生成复杂推理问题的新基准,我们发现通过显式的思维链提示可以显著提高模型的推理性能。此外,我们揭示了模型在集合并运算方面表现良好,但在集合交集运算方面面临重大挑战,这对于逻辑推理至关重要。
Jul, 2024