NEWTON：大型语言模型是否具备物理推理能力？

EMNLPOct, 2023

NEWTON：大型语言模型是否具备物理推理能力？

NEWTON: Are Large Language Models Capable of Physical Reasoning?

Yi Ru Wang, Jiafei Duan, Dieter Fox, Siddhartha Srinivasa

TL;DR通过评估物理推理技能的新基准数据集 NEWTON，以及针对对象与属性的推理任务，研究发现大型语言模型在场景任务中表现出强大的推理能力，但在对象 - 属性推理方面与人类相比存在欠缺（50％对比 84％），新基准数据集 NEWTON 展示了评估和提升语言模型的潜力，为将其整合到以物理为基础的环境中铺平了道路。

Abstract

large language models (LLMs), through their contextualized representations, have been empirically proven to encapsulate syntactic, semantic, word sense, and common-sense knowledge. However, there has been limited exploration of their physical reasoning abilities, specifically concernin

large language models newton physics reasoning abilities benchmark object-attribute reasoning

发现论文，激发创造

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

大型语言模型仍无法规划 (面向规划和变化推理的 LLM 基准测试)

该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于 LLMs 推理能力的夸张的说法，并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。

Jun, 2022

一项测试模型在某些推理任务中的能力的案例研究

大型语言模型在生成个性化内容和促进交互对话方面表现出色，但在推理能力和提供可解释性输出方面仍有待提高。本研究深入探讨了大型语言模型的推理能力，突出了当前挑战和限制，阻碍了它们在复杂推理场景中的有效性。

Feb, 2024

大型语言模型真的是良好的逻辑推理者吗？从演绎、归纳和举例推理的综合评估

本文针对大型语言模型的逻辑推理能力进行全面评估，选择 15 个经典数据集，评估模型的零点、单点和三点能力，提出客观和主观的细化评估方法，归纳出 LLMs 的逻辑推理能力的优势和不足并提出未来方向。

Jun, 2023

SimLM：语言模型能否推断物理系统的参数？

大规模机器学习模型在语言的通用理解、翻译和生成方面的最新进展，给医学、机器人学和科学探索等多个领域带来了影响。然而，这些大语言模型因为其训练所使用的大型语料库的特点，存在无法处理一些特定问题，如高级数学。本文针对大语言模型无法进行物理任务推理的问题进行了研究，并证明了通过从物理模拟的反馈中增强它们的上下文，可以改进它们推断物理系统参数的能力，而无需重新训练。

Dec, 2023

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

大规模语言模型中的推理：几何视角

通过对大型语言模型（LLMs）的几何理解，我们探索了大型语言模型（LLMs）的推理能力，建立了 LLMs 的表达能力和自注意力图的密度之间的联系，通过理论分析和玩具示例证明了更高的内在维度意味着更大的 LLM 表达能力，并提供了将几何框架与增强 LLM 推理能力方法中的最新进展相联系的经验证据。

Jul, 2024

超越准确性：评估大型语言模型的推理行为 -- 调查研究

大型语言模型在推理任务中表现出色，但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究，深入探讨模型的推理过程，并调查评估语言模型推理行为的方法，发现其依赖于训练数据的表面模式和相关性，而非真正的推理能力。同时，我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述，我们旨在揭示大型语言模型内部复杂的推理过程。

Apr, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023