可靠推理超越自然语言

Jul, 2024

Reliable Reasoning Beyond Natural Language

Nasim Borazjanizadeh, Steven T. Piantadosi

TL;DR我们提出了一种神经符号化方法，该方法通过提示大型语言模型从问题陈述中提取和编码所有相关信息作为逻辑代码语句，并使用逻辑编程语言（Prolog）进行明确的演绎推理的迭代计算，从而显著提高了大型语言模型在标准数学推理基准测试GSM8k和BIG-bench数据集的Navigate数据集上的性能。此外，我们引入了一个新的数据集，Non-Linear Reasoning（NLR）数据集，包含55个唯一的单词问题，针对大型语言模型的下一个令牌预测范式的缺点，并要求使用基本算术技能解决复杂的非线性推理。我们的研究结果表明，Prolog的集成使得大型语言模型能够在NLR数据集上实现高性能，在此任务上，甚至包括GPT4在内的最先进语言模型都无法通过纯文本解决。

Abstract

Despite their linguistic competence, large language models (LLMs) often exhibit limitations in their ability to reason reliably and flexibly. To address this, we propose a neurosymbolic approach that prompts LLMs

发现论文，激发创造

通过可微分符号编程改进语言模型的逻辑推理能力

本文提出 DSR-LM 框架，通过符号编程实现不同iable 符号推理框架，其中预训练的语言模型控制事实知识的感知，符号模块执行演绎推理，并改进了LMs的逻辑推理能力，结果表明其在推理基准测试中的精度提高了20%以上。

May, 2023

Logic-LM: 使用符号求解器增强大型语言模型进行可靠的逻辑推理

Logic-LM是一种将大型语言模型与符号推理相结合的框架，通过首先使用大型语言模型将自然语言问题转化为符号形式，然后进行确定性符号求解，以及自我精炼阶段来修正符号形式，在ProofWriter、PrOntoQA、FOLIO和LogicalDeduction等四个逻辑推理数据集上的结果表明，与仅使用大型语言模型相比，我们的方法可以显著提高逻辑推理的性能。

May, 2023

大型语言模型真的是良好的逻辑推理者吗？从演绎、归纳和举例推理的综合评估

本文针对大型语言模型的逻辑推理能力进行全面评估，选择15个经典数据集，评估模型的零点、单点和三点能力，提出客观和主观的细化评估方法，归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。

Jun, 2023

LogiGLUE: 逻辑推理能力的语言模型分析调查和基准评测

通过对最新进展的简要回顾，本文试图了解大型语言模型在逻辑推理方面的能力，包括逻辑推理数据集、任务以及利用大型语言模型进行推理的方法。通过构建基准测试集LogiGLUE，并训练一个经过指令微调的语言模型LogiT5，研究了单任务训练、多任务训练以及思维链知识蒸馏微调技术在不同逻辑推理类别上的表现，旨在揭示大型语言模型在逻辑推理中的能力和潜在路径，为该关键领域的高级和精细化发展铺平道路。

Oct, 2023

LINC: 将语言模型与一阶逻辑证明器相结合的神经符号化逻辑推理方法

通过使用神经符号计算来全面利用LLMs和符号化证明器，本文探索了以逻辑推理任务，特别是符合自然语言的任务为基础的解决方案。

Oct, 2023

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行“推理”吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

深度研究逻辑推理与LLM：工具选择的重要性

通过将大型语言模型 (LLMs) 与各种符号求解器相结合，我们对 Z3、Pyke 和 Prover9 三个符号求解器的性能进行实验证明，其中与 LLMs 相结合时，Pyke 的性能明显低于 Prover9 和 Z3，Z3 的总体准确性略高于 Prover9，但 Prover9 能够处理更多问题。

Jun, 2024

LOGIC-LM++：符号化表达的多步精化

本文研究大型语言模型在复杂推理任务中的局限性，提出了Logic-LM++作为对Logic-LM和基于LLMs的技术的改进，通过利用LLMs进行成对比较，可以评估LLM建议的改进。研究结果表明，在自然语言推理任务中，Logic-LM++在两个数据集FOLIO和AR-LSAT上的性能优于Logic-LM和基于LLMs的技术，标准提示的平均改进率为13.5%，思维链提示的改进率为11%，而Logic-LM的改进率为5%。

Jun, 2024

CLR-Fact：评估大语言模型在事实知识上的复杂逻辑推理能力

本研究解决了大语言模型在复杂逻辑推理中的能力不足。通过自动生成复杂推理问题的新基准，我们发现通过显式的思维链提示可以显著提高模型的推理性能。此外，我们揭示了模型在集合并运算方面表现良好，但在集合交集运算方面面临重大挑战，这对于逻辑推理至关重要。

Jul, 2024

自动定理证明器帮助提高大型语言模型的推理能力

本文解决了大型语言模型在逻辑推理任务中准确性不足的问题。研究提出了一种神经符号架构，通过将LLM作为翻译前端并结合自动推理引擎来解决逻辑问题，实现了基于自动定理证明器的语义错误修正。结果表明，该方法显著减少了语义错误，提高了LLM的推理准确性。

Aug, 2024