LINGOLY：一份基于奥林匹克水平的语言推理难题在资源稀缺和濒危语言中的基准测试

Jun, 2024

LINGOLY：一份基于奥林匹克水平的语言推理难题在资源稀缺和濒危语言中的基准测试

LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages

Andrew M. Bean, Simi Hellsten, Harry Mayne, Jabez Magomere, Ethan A. Chi...

TL;DR通过 LingOly 基准测试，我们评估了大型语言模型在上下文识别、语言模式的泛化能力以及执行复杂任务指令的能力，并发现在没有记忆的情况下，当前语言模型在真正的多步骤跨领域推理方面仍存在挑战。

Abstract

In this paper, we present the lingoly benchmark, a novel benchmark for advanced reasoning abilities in large language models. Using challenging Linguistic Olympiad puzzles, we evaluate (i) capabilities for in-con

lingoly benchmark reasoning abilities linguistic patterns task instructions llms

发现论文，激发创造

OlympiadBench：一个挑战性的基准测试，旨在推动具备奥林匹克级双语多模式科学问题的通用人工智能

我们提出了 OlympiadBench，这是一个奥林匹克级双语多模态科学基准，包含来自奥林匹克级数学和物理竞赛以及中国大学入学考试的 8,952 个问题，每个问题都有专家级的逐步推理注释。我们在 OlympiadBench 上评估了一流的模型，并实施了全面的评估方法，从而准确评估模型的响应能力。最佳模型 GPT-4V 在 OlympiadBench 上的平均得分为 17.23％，物理得分仅为 11.28％，突出了基准的严谨性和物理推理的复杂性。我们的分析指出了 GPT-4V 存在的幻觉、知识遗漏和逻辑谬误等普遍问题。希望我们挑战性的基准可以成为未来 AGI 研究努力的宝贵资源。

Feb, 2024

modeLing: 用于测试语言模型语言推理的新颖数据集

我们介绍了 modeLing，这是一种测试人工智能系统中少样本推理能力的新型 Linguistics Olympiad-style 谜题基准。通过从少数例子中推断一种语言的语法结构的各个方面，解决这些谜题需要一定的推理能力。modeLing 是专门为本研究编写的全新谜题，不会出现在现有 AI 系统的训练数据中，减少了数据泄漏对推理评估的潜在混淆因素。通过在我们的基准测试中评估多个大型开源语言模型和 GPT，我们观察到相当高的准确性，表明具备少样本新兴推理能力，不能仅归因于浅层记忆。然而，不完美的模型表现表明 modeLing 可以用来衡量语言推理的进一步进展。

Jun, 2024

PuzzLing Machines: 从小数据学习的挑战

介绍了一个名为 PuzzLing Machines 的小数据学习挑战，该挑战包含来自语言奥林匹克的石碑难题，展示了目前包括最先进的深度神经网络模型在内的简单的统计算法无法完成这一挑战，这启发了新的 NLP 发展方向 -- 人类般思考的理解。

Apr, 2020

语言模型能解决奥林匹克编程吗？

计算竞赛，语言模型，USACO 基准，竞技编程，算法推理

Apr, 2024

IrokoBench：大型语言模型时代的非洲语言新基准

本研究使用 IrokoBench 数据集对低资源的非洲语言进行了零样本学习、少样本学习和翻译测试，并发现了高资源语言和低资源非洲语言之间的显著性能差距。机器翻译测试集从而改善了一些以英语为中心的大型模型的表现，结果表明需要更多的努力来开发和适应非洲语言的大型语言模型。

Jun, 2024

MathOdyssey: 使用 Odyssey 数学数据对大型语言模型中的数学问题解决技能进行基准测试

该研究探讨了大型语言模型（LLMs）在数学问题求解方面的能力，并使用新开发的 “MathOdyssey” 数据集进行测试。研究结果显示，尽管 LLMs 在常规和中等难度任务上表现良好，但在奥林匹克级难度和复杂的大学水平问题上仍面临重大挑战，因此需要进一步研究来提高 LLMs 的数学推理能力。

Jun, 2024

LLMs 错误的简单问题

我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题，它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误，并强调了更好的训练方法的必要性。我们的研究结果强调了将大型语言模型与人类推理和常识连接起来的重要性，并强调了人在企业应用中的必要性。我们希望这项工作为未来的研究提供了增强新模型的实用性和可靠性的途径。

May, 2024

奥林匹克竞技场：对超智能人工智能的多学科认知推理进行基准测试

人工智能的进化已经显著加速，主要得益于大型语言模型和大型多模态模型的进展，在问题解决和科学发现方面逐渐展现出与人类智力相当的潜在认知推理能力（即 AI4Science）。为了全面评估当前模型在认知推理能力方面的表现，我们引入了奥林匹克竞技场（OlympicArena），其中包含了 11,163 个双语问题，涵盖了文本和图像两种模态。这些挑战囊括了七个领域和 62 个国际奥林匹克竞赛的各种学科，经过严谨的数据泄露检测。我们认为，奥林匹克竞赛问题中的挑战非常适合评估 AI 的认知推理能力，因为这些问题具有复杂性和跨学科性质，对于解决复杂科学难题和促进发现非常重要。通过答案评估各学科中的表现之外，我们从多个角度进行了详细的实验和分析，深入探讨了模型的认知推理能力，它们在不同模态下的表现以及在解决长篇解答复杂推理任务中的结果。我们广泛的评估显示，即使是像 GPT-4o 这样的先进模型也只能达到 39.97% 的整体准确率，这说明当前人工智能在复杂推理和多模态整合方面存在局限性。通过奥林匹克竞技场，我们旨在推进人工智能走向超级智能，使其能够应对更复杂的科学和其他挑战。我们还提供了一套全面的资源来支持人工智能研究，包括基准数据集、开源注释平台、详细评估工具和带有自动提交功能的排行榜。

Jun, 2024

SciBench：评估大规模语言模型的大学科学问题解决能力

最近大型语言模型 (LLM) 在许多数学基准上取得显著进展，但大多数基准只涉及初高中科目的问题和多项选择题，且仅限于有限范围的基本算术操作。为解决这些问题，本文引入了一个广泛的基准套件 SciBench，旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集：一个开放集，包含从数学、化学和物理教科书中提取的多领域的大学级科学问题；一个封闭集，包含了计算机科学和数学本科考试中的问题。基于这两个数据集，我们对两个代表性 LLM 进行了深入的基准研究，采用多种提示策略。结果表明，当前 LLM 的表现不尽如人意，综合得分仅为 35.80%。此外，通过详细的用户研究，我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明，没有一种单一的提示策略明显优于其他策略，而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展，从而最终促进科学研究和发现。

Jul, 2023

利用大语言模型的推理解谜：一项调查研究

对大型语言模型（LLMs）在解谜方面的能力进行探索，揭示了它们在人工智能中的潜力和挑战，这是对其在复杂推理任务中适用性的重要一步。通过将谜题分为基于规则和非规则两类的独特分类法，该调查通过各种方法论（包括提示技术、神经符号方法和微调）对 LLMs 进行了批判性评估。通过对相关数据集和基准的批判性回顾，我们评估了 LLMs 在复杂谜题情景中的表现，发现其在需要高级逻辑推理的领域与人类推理能力存在显著差距。该调查强调了需要新的策略和更丰富数据集来提升 LLMs 在解谜方面的熟练度，并为 AI 的逻辑推理和创造性问题解决的进展做出贡献。

Feb, 2024