modeLing: 用于测试语言模型语言推理的新颖数据集

Jun, 2024

modeLing: 用于测试语言模型语言推理的新颖数据集

modeLing: A Novel Dataset for Testing Linguistic Reasoning in Language Models

Nathan A. Chi, Teodor Malchev, Riley Kong, Ryan A. Chi, Lucas Huang...

TL;DR我们介绍了 modeLing，这是一种测试人工智能系统中少样本推理能力的新型 Linguistics Olympiad-style 谜题基准。通过从少数例子中推断一种语言的语法结构的各个方面，解决这些谜题需要一定的推理能力。modeLing 是专门为本研究编写的全新谜题，不会出现在现有 AI 系统的训练数据中，减少了数据泄漏对推理评估的潜在混淆因素。通过在我们的基准测试中评估多个大型开源语言模型和 GPT，我们观察到相当高的准确性，表明具备少样本新兴推理能力，不能仅归因于浅层记忆。然而，不完美的模型表现表明 modeLing 可以用来衡量语言推理的进一步进展。

Abstract

We introduce modeling, a novel benchmark of Linguistics Olympiad-style puzzles which tests few-shot reasoning in AI systems. Solving these

modeling benchmark linguistics olympiad-style puzzles few-shot reasoning language models

发现论文，激发创造

PuzzLing Machines: 从小数据学习的挑战

介绍了一个名为 PuzzLing Machines 的小数据学习挑战，该挑战包含来自语言奥林匹克的石碑难题，展示了目前包括最先进的深度神经网络模型在内的简单的统计算法无法完成这一挑战，这启发了新的 NLP 发展方向 -- 人类般思考的理解。

Apr, 2020

语言模型可作为逻辑求解器

LoGiPT 是一种新颖的语言模型，通过直接模拟逻辑求解器的推理过程并严格遵守求解器的语法规则，绕过分析错误，并在竞争的语言模型上表现出优异的性能。

Nov, 2023

大规模语言模型对于超领域逻辑推理任务的系统评估

大型语言模型在逻辑推理任务中的泛化性和鲁棒性评估及改善的研究。

Oct, 2023

LINGOLY：一份基于奥林匹克水平的语言推理难题在资源稀缺和濒危语言中的基准测试

通过 LingOly 基准测试，我们评估了大型语言模型在上下文识别、语言模式的泛化能力以及执行复杂任务指令的能力，并发现在没有记忆的情况下，当前语言模型在真正的多步骤跨领域推理方面仍存在挑战。

Jun, 2024

在测试语言不常见方面的人工智能性能时，暴露对底层意义的不敏感性

本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现，着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力，暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。

Feb, 2023

LogiGLUE: 逻辑推理能力的语言模型分析调查和基准评测

通过对最新进展的简要回顾，本文试图了解大型语言模型在逻辑推理方面的能力，包括逻辑推理数据集、任务以及利用大型语言模型进行推理的方法。通过构建基准测试集 LogiGLUE，并训练一个经过指令微调的语言模型 LogiT5，研究了单任务训练、多任务训练以及思维链知识蒸馏微调技术在不同逻辑推理类别上的表现，旨在揭示大型语言模型在逻辑推理中的能力和潜在路径，为该关键领域的高级和精细化发展铺平道路。

Oct, 2023

语言模型是否是解谜天才？算法解谜揭示多模态推理中的严峻挑战

这篇论文介绍了一项新颖的任务，即多模式拼图解决，其框架是视觉问题回答。我们提出了一个名为 AlgoPuzzleVQA 的新数据集，旨在挑战和评估多模态语言模型在解决需要视觉理解、语言理解和复杂算法推理的算法拼图中的能力。我们的研究表明，GPT4V 和 Gemini 等大型语言模型在拼图解决任务中表现有限，对于大量拼图的多选题回答设置，它们的性能接近随机。这些发现突出了整合视觉、语言和算法知识以解决复杂推理问题的挑战。

Mar, 2024

利用大语言模型的推理解谜：一项调查研究

对大型语言模型（LLMs）在解谜方面的能力进行探索，揭示了它们在人工智能中的潜力和挑战，这是对其在复杂推理任务中适用性的重要一步。通过将谜题分为基于规则和非规则两类的独特分类法，该调查通过各种方法论（包括提示技术、神经符号方法和微调）对 LLMs 进行了批判性评估。通过对相关数据集和基准的批判性回顾，我们评估了 LLMs 在复杂谜题情景中的表现，发现其在需要高级逻辑推理的领域与人类推理能力存在显著差距。该调查强调了需要新的策略和更丰富数据集来提升 LLMs 在解谜方面的熟练度，并为 AI 的逻辑推理和创造性问题解决的进展做出贡献。

Feb, 2024

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

结构化、灵活、鲁棒：针对超出分布推理任务对大型语言模型进行基准测试和改进，以实现更类似于人类的行为

人类语言在思维和学习结构方面发挥重要作用。本文提出了一个挑战测评与深度学习语言模型相比人类表现的基准，并通过提供结构化符号推理模块来拓展深度学习语言模型，以使其更符合人类推理。实验表明，在语言表达能力、泛化能力等方面，人类远远优于 LLMs，这说明混合 AI 模型具有更接近人类推理的潜力。

May, 2022