大型语言模型是神经符号推理器

AAAIJan, 2024

Large Language Models Are Neurosymbolic Reasoners

Meng Fang, Shilong Deng, Yudi Zhang, Zijing Shi, Ling Chen...

TL;DR该论文研究了大型语言模型作为符号推理器的潜在应用，提出了一个针对符号挑战和实现游戏目标的 LLM 代理，并通过实验结果证明了其能显著增强 LLMs 作为符号推理自动化代理的能力，对涉及符号任务的基于文本的游戏取得了 88% 的平均性能。

Abstract

A wide range of real-world applications is characterized by their symbolic nature, necessitating a strong capability for symbolic reasoning. This paper investigates the potential application of large language models

large language models symbolic reasoning text-based games llm agent symbolic tasks

发现论文，激发创造

Logic-LM: 使用符号求解器增强大型语言模型进行可靠的逻辑推理

Logic-LM 是一种将大型语言模型与符号推理相结合的框架，通过首先使用大型语言模型将自然语言问题转化为符号形式，然后进行确定性符号求解，以及自我精炼阶段来修正符号形式，在 ProofWriter、PrOntoQA、FOLIO 和 LogicalDeduction 等四个逻辑推理数据集上的结果表明，与仅使用大型语言模型相比，我们的方法可以显著提高逻辑推理的性能。

May, 2023

评估拉马大型语言模型的新兴符号推理能力

大型语言模型在各种任务中取得了令人印象深刻的表现，即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了 Llama 2 家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型（Llama 2 Chat）以及两个专门设计用于解决数学问题的经过微调的 Llama 2 版本（MAmmoTH 和 MetaMath）。我们观察到，增加模型规模并在相关任务上进行微调可以显著提高性能。此外，通过使用细粒度的评估指标，我们发现这种性能提升主要出现在复杂度较低的数学公式上，尽管对于最大的经过微调的模型来说，这些公式通常仍然具有一定挑战性。

Jun, 2024

大型语言模型的符号能力研究

研究证实，大型语言模型在处理基于符号的任务时面临符号复杂度上升的挑战，强调了需要专门的训练、内存和架构调整以提高它们在符号推理任务中的熟练度。

May, 2024

大型语言模型应通过行为模拟成为复杂人类系统的专家顾问

在本文中，我们探讨了大型语言模型（LLMs）在复杂人类系统中的推理能力，并提出了一种新的推理框架 ——“Mosaic Expert Observation Wall”（MEOW），利用生成型代理模拟技术。通过模拟数据训练一个专家模型，该模型在每个独立的模拟时间中专注于某个特定任务的 “经验”，通过模拟积累的 “经验” 使其成为复杂人类系统中某个任务的专家。我们在模拟真实世界安全场景的通信游戏中进行了实验，结果表明我们提出的方法可以与现有方法协同工作，增强大型语言模型在复杂人类系统中的推理能力。

Mar, 2024

LLM 作为主脑：大型语言模型的战略推理综述

本文综述了大规模语言模型（LLMs）在战略推理中的当前状况和机遇，战略推理是一种复杂的推理形式，需要理解和预测多智能体环境中对手行为并相应调整策略。本文探讨了与 LLMs 相关的战略推理的范围、应用、方法论和评估指标，强调了该领域蓬勃发展和跨学科方法对决策性能的增强。该文旨在系统梳理和澄清有关此主题的分散文献，提供系统综述，凸显战略推理作为一种关键认知能力的重要性，并提供未来研究方向和潜在改进的见解。

Apr, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

培训以调用符号求解器为目标的经济型语言模型实现参数高效算术推理

在这篇论文中，我们提出了一种名为 SYRELM 的架构，它通过采用符号求解器来将自然语言算术问题转化为形式化语言描述，然后通过一个小型冻结的 LM 生成包含自然语言描述的形式化表达式，并通过策略梯度强化学习训练适应的 LM，从而实现合理的算术推理。该方法在准确性上取得了巨大的改进，并具有易于诊断、解释和大多数研究人员可以使用的特点。

Dec, 2023

语言模型的战略推理

使用预训练的大型语言模型，并通过有限的示例进行引导，使智能代理能够进行战略推理和协商，而不需要任何额外的训练或微调。

May, 2023

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

大型语言模型不是抽象推理器

本论文评估了最新的 Large Language Models 在抽象推理任务上的表现，并发现它们相比于其他自然语言处理任务的表现非常有限。作者探讨了这种差异的原因，并提出了一个新的基准，用于评估自然语言处理中的抽象推理任务。

May, 2023