利用语言模型进行认证推理

Jun, 2023

Certified Reasoning with Language Models

Gabriel Poesia, Kanishk Gandhi, Eric Zelikman, Noah D. Goodman

TL;DR该论文介绍了一种名为 LogicGuide 的工具，通过设置有状态和增量约束来指导语言模型的理性推理，即模型在这个指导下生成的内容是合理的。经过测试，LogicGuide 工具有效地提高了 GPT-3、GPT-3.5 Turbo 和 LLaMA 等模型的性能。

Abstract

language models often achieve higher accuracy when reasoning step-by-step in complex tasks. However, their reasoning can be unsound, incon

language models guides reasoning logicguide llama

发现论文，激发创造

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

语言模型可作为逻辑求解器

LoGiPT 是一种新颖的语言模型，通过直接模拟逻辑求解器的推理过程并严格遵守求解器的语法规则，绕过分析错误，并在竞争的语言模型上表现出优异的性能。

Nov, 2023

A & B == B & A：在大型语言模型中触发逻辑推理失败

我们引入了 LogicAsker，它是一种自动方法，全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力，并揭示了 LLM 未能学好的逻辑规则。我们评估了 LogicAsker 在 GPT-3、ChatGPT、GPT-4、Bard、Vicuna 和 Guanaco 等主要的大型语言模型上，并展示了 LogicAsker 的测试用例在不同 LLM 中发现逻辑推理错误的比率从 25% 到 94% 不等。此外，LogicAsker 的测试用例可以进一步用于设计上下文学习的演示例子，有效提高 LLM 的逻辑推理能力，如 GPT-4 提高了 10%。据我们所知，我们的工作是首次基于测试结果创建提示来有效提高 LLM 的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。

Jan, 2024

小型语言模型是否能帮助大型语言模型更好地进行推理？：LM 引导下的思路链

我们引入了一种新颖的框架，LM-Guided CoT，它利用轻量级（即 <1B）语言模型（LM）指导黑盒大型（即> 10B）LM 在推理任务中的工作。具体而言，轻量级 LM 首先为每个输入实例生成理论依据，接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效，只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型，其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明，我们的方法在回答预测准确性方面优于所有基准方法。我们还发现，强化学习有助于模型生成更高质量的理论依据，并提高问答的性能。

Apr, 2024

将大型语言模型与逻辑编程相结合，从文本中进行稳健和通用的推理

本研究探讨大型语言模型在自然语言推理任务上的表现。通过使用少量样本指导大型语言模型进行任务适应，以及可应用于多个任务的可重用的知识模块，结合逻辑形式输入的答案程序，实现了在多项 NLP 基准测试上的最新性能，包括 bAbI，StepGame，CLUTRR 和 gSCAN，并成功解决了机器人规划任务，而大型语言模型单独无法解决。

Jul, 2023

AutoGuide: 大型语言模型代理的自动生成和选择状态感知指南

通过提取蕴含于离线数据中的知识，AutoGuide 框架在大型语言模型的知识缺失问题上取得了重大突破，并通过提供与代理程序当前决策过程相关的有用知识，在顺序决策基准测试中大幅优于竞争的基于大型语言模型的基线模型。

Mar, 2024

利用大型语言模型进行忠实推理

通过串联使用微调语言模型进行多步推理的方法，可以解决大型语言模型的单次调用限制，提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型，并生成可由用户检查的有效推理过程。

Aug, 2022

自然语言推理问题中使用语言模型进行知识获取

本文通过在逻辑单词谜题上比较使用 ChatGPT 和 GPT-4 直接解决问题和提取问题文本事实并使用定理证明器解决两种方法，并得出后者是正确的方法来研究了利用大语言模型解决自然语言问题需要一些非平凡的推理。

Apr, 2023

通过概率推理实现逻辑一致的语言模型

通过引入基于原则的概率推理训练目标，本研究改进了大型语言模型的逻辑一致性和新知识推理能力。

Apr, 2024

利用大型语言模型生成答案集程序

本文提出了一种神经符号方法，将大型语言模型和答案集编程的优势相结合，以将逻辑谜题的自然语言描述转化为答案集程序。

Jul, 2023