通过符号化推理保持逻辑的准确性

ACLMay, 2024

通过符号化推理保持逻辑的准确性

Faithful Logical Reasoning via Symbolic Chain-of-Thought

Jundong Xu, Hao Fei, Liangming Pan, Qian Liu, Mong-Li Lee...

TL;DR提出了一种基于大型语言模型的新型符号化思维链 (SymbCoT) 框架，通过将符号表达和逻辑规则与语言模型集成，以增强其逻辑推理能力，并在 5 个标准数据集上通过深入评估展示了显著的性能提升。

Abstract

While the recent chain-of-thought (CoT) technique enhances the reasoning ability of large language models (LLMs) with the theory of mind, it might still struggle in handling →

chain-of-thought symbolic chain-of-thought logical reasoning large language models symbolic expressions

发现论文，激发创造

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023

通过逻辑增强大型语言模型中的零射连续推理

利用逻辑链思维 (LogiCoT) 的神经符号框架，大规模语言模型提供了更强的零编码链式思维推理能力。实验证明了逻辑增强的推理范式在算术、常识、符号、因果推断和社会问题等多个领域的语言任务中的有效性。

Sep, 2023

代码链：利用语言模型加强的代码仿真器进行推理

我们提出了 Chain of Code (CoT) 这一简单但非常有效的扩展方法，通过鼓励语言模型将语言子任务格式化为编程中的伪代码，以期改进语言模型驱动的推理，并通过 “思考代码” 的方式扩大语言模型能够正确回答的推理问题范围。

Dec, 2023

带思维链的 LLMs 是非因果推理者

该研究探讨了大型语言模型中思维链（CoT）在推理中的作用，通过因果分析发现模型与人类推理过程之间存在差异，并揭示了模型中影响因果结构的因素。

Feb, 2024

LLM 中的算术推理：Prolog 生成与排列

使用大型语言模型来生成 Prolog 程序以解决数学问题，在 GSM8K 基准测试中，我们的 Prolog 算术问题解决方法在三个不同的大型语言模型中胜过了 Chain of Thought。我们提出对真值谓词进行排列组合，以通过数据增强方法来增加训练的健壮性。

May, 2024

揭示思维链背后的谜团：理论视角

研究表明 Chain-of-Thought 提示可以显著改善大型语言模型的性能，特别是在涉及数学或推理的复杂任务中。本文首先对这些问题的潜在机制进行了理论方面的探讨，然后通过构建的方式证明了带有 CoT 的自回归机器人可以解决基本算术方程问题和决策制定问题，并且具有动态编程方面的潜在应用。

May, 2023

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

符号表示对于背景下少样本推理学习的影响

本研究的主要目标是使用预先训练的语言模型来进行推理，特别是在推理时使用解释以增强上下文学习。作者将神经符号方法重新引入到这个任务中，并将语言模型作为逻辑程序员，以在知识库中迭代推理。实验结果表明，相对于上下文学习策略， LMLP 在演绎和长度归纳基准测试中表现得更加优秀。

Dec, 2022

链条思维推理中的忠实性测量

在大型语言模型中，通过分析模型预测的变化，研究发现 Chain-of-Thought 推理在某些任务中对答案预测的条件具有较大影响，但随着模型规模的增大，模型对大多数任务的推理越来越不可信，因此建议在选择模型规模和任务时谨慎使用 Chain-of-Thought 推理。

Jul, 2023

基于知识驱动的协同训练：探索 LLMs 中的忠实推理与知识密集型问答

通过与外部知识的交互，我们提出了一个名为知识驱动的思路连贯（KD-CoT）的框架，以验证和修改语言模型的推理过程，以缓解幻觉和错误传播，尤其在回答知识密集型任务时。

Aug, 2023