具有合理性的语言模型

May, 2023

Language Models with Rationality

Nora Kassner, Oyvind Tafjord, Ashish Sabharwal, Kyle Richardson, Hinrich Schutze...

TL;DR在大型语言模型中添加一个反思层次，通过构建信念图和使用形式化的约束推理器，从而减少其答案与其他 “信念” 的依赖关系和不一致性，REFLEX 方法可以改善一定程度的一致性，同时不降低模型的答案准确性。

Abstract

While large language models (LLMs) are proficient at question-answering (QA), the dependencies between their answers and other "beliefs" they may have about the world are typically unstated, and may even be in co

large language models question-answering belief graph inferential relationships reflex

发现论文，激发创造

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

大型语言模型中的 (非) 理性和认知偏差

大型语言模型在合理推理中显示出人类的偏见和不合理行为，但这种不合理行为与人类不同，且存在额外的回答不一致性。

Feb, 2024

对大型语言模型作为知识密集型任务的合理化特征的刻画

大型语言模型能够在缺乏任务特定监督的情况下生成流畅的文本，但其在具有知识密集型任务中提供有根据的解释的能力仍未得到充分探索。我们通过使用专家编写的几个样本，以少量样本的方式生成基于知识的解释来解决这一问题。通过研究发现，众包工作者更喜欢基于知识的解释，因为它们具有实际性、充分性和全面的反驳。虽然大型语言模型生成的解释更受欢迎，但需要进一步提高简明性和新颖性。另外，我们还展示了错误模型预测的解释如何削弱人类对大型语言模型生成的解释的信任。基于这些观察的动机，我们创建了一个两阶段的流程，在生成解释之前审查任务预测并消除潜在的错误决策，以实现可信赖的解释生成。

Nov, 2023

学会拒绝：通过知识范围限制和拒绝机制提升大型语言模型的可控性和可靠性

大型语言模型中存在问题的幻觉，通过拒绝机制和知识库来提高模型的可控性和可靠性。

Nov, 2023

利用大型语言模型进行忠实推理

通过串联使用微调语言模型进行多步推理的方法，可以解决大型语言模型的单次调用限制，提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型，并生成可由用户检查的有效推理过程。

Aug, 2022

LLM 细化之艺：问、细化与信任

近年来，大型语言模型展现出了令人瞩目的生成能力，但它们能判断自己生成的质量吗？我们提出了一种名为 ART 的推理与改进目标，通过提出必要的问题来决定何时应该改进模型的输出，并通过对改进和初始预测进行排名来确认或保留对改进的信任。在数学 word 问题和问答任务上，ART 相较于自我改进的基线表现提高了 5 个百分点，并且更小的模型作为决策者显示出了使用更小模型进行改进决策的好处，作为经济高效的替代方法。

Nov, 2023

LLM 引导的归纳推理在解决组合问题上的应用

使用递归解决方案和自动推理技术，REBEL 方法扩展了大型语言模型的能力，允许其在开放世界情境中进行深度推理任务和外部工具的使用。

Sep, 2023

信念修订：大型语言模型推理的适应性

从文本推理的能力对于现实世界的自然语言处理应用至关重要。现实场景通常涉及不完整或不断演化的数据，在这种情况下，个体会相应地更新其信念和理解。然而，大多数现有评估假设语言模型在处理一致信息时运行，我们引入了 Belief-R，这是一个新的数据集，旨在测试语言模型在面对新证据时的信念修订能力。受人类抑制先前推理的启发，该任务在新提出的 delta reasoning（＄ΔR＄）框架内评估语言模型。Belief-R 包含一系列前提，旨在模拟额外信息可能需要语言模型绘制的先前结论的情况。我们对约 30 个不同提示策略的语言模型进行评估，发现语言模型通常在适当修订其信念以响应新信息方面存在困难。此外，擅长更新的模型在没有必要更新的情况下通常表现不佳，凸显了一种关键权衡。这些洞见强调了提高语言模型对变化信息的适应能力的重要性，这是朝着更可靠的人工智能系统迈出的一步。

Jun, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

探究大型语言模型如何利用内部知识进行复杂推理

通过将复杂的现实世界问题分解成图形，将每个问题表示为一个节点，并使用具有解决问题所需背景知识的父节点来研究大型语言模型（LLMs）如何利用知识进行推理。使用分层图形，我们量化了 LLMs 在较简单子问题与复杂问题上性能的前向差异和后向差异。此研究拓展了我们对 LLM 推理的理解，并提出了改进它们解决问题能力的方法。

Jun, 2024