具有合理性的语言模型
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
大型语言模型能够在缺乏任务特定监督的情况下生成流畅的文本,但其在具有知识密集型任务中提供有根据的解释的能力仍未得到充分探索。我们通过使用专家编写的几个样本,以少量样本的方式生成基于知识的解释来解决这一问题。通过研究发现,众包工作者更喜欢基于知识的解释,因为它们具有实际性、充分性和全面的反驳。虽然大型语言模型生成的解释更受欢迎,但需要进一步提高简明性和新颖性。另外,我们还展示了错误模型预测的解释如何削弱人类对大型语言模型生成的解释的信任。基于这些观察的动机,我们创建了一个两阶段的流程,在生成解释之前审查任务预测并消除潜在的错误决策,以实现可信赖的解释生成。
Nov, 2023
通过串联使用微调语言模型进行多步推理的方法,可以解决大型语言模型的单次调用限制,提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型,并生成可由用户检查的有效推理过程。
Aug, 2022
近年来,大型语言模型展现出了令人瞩目的生成能力,但它们能判断自己生成的质量吗?我们提出了一种名为 ART 的推理与改进目标,通过提出必要的问题来决定何时应该改进模型的输出,并通过对改进和初始预测进行排名来确认或保留对改进的信任。在数学 word 问题和问答任务上,ART 相较于自我改进的基线表现提高了 5 个百分点,并且更小的模型作为决策者显示出了使用更小模型进行改进决策的好处,作为经济高效的替代方法。
Nov, 2023
从文本推理的能力对于现实世界的自然语言处理应用至关重要。现实场景通常涉及不完整或不断演化的数据,在这种情况下,个体会相应地更新其信念和理解。然而,大多数现有评估假设语言模型在处理一致信息时运行,我们引入了 Belief-R,这是一个新的数据集,旨在测试语言模型在面对新证据时的信念修订能力。受人类抑制先前推理的启发,该任务在新提出的 delta reasoning($ΔR$)框架内评估语言模型。Belief-R 包含一系列前提,旨在模拟额外信息可能需要语言模型绘制的先前结论的情况。我们对约 30 个不同提示策略的语言模型进行评估,发现语言模型通常在适当修订其信念以响应新信息方面存在困难。此外,擅长更新的模型在没有必要更新的情况下通常表现不佳,凸显了一种关键权衡。这些洞见强调了提高语言模型对变化信息的适应能力的重要性,这是朝着更可靠的人工智能系统迈出的一步。
Jun, 2024
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
通过将复杂的现实世界问题分解成图形,将每个问题表示为一个节点,并使用具有解决问题所需背景知识的父节点来研究大型语言模型(LLMs)如何利用知识进行推理。使用分层图形,我们量化了 LLMs 在较简单子问题与复杂问题上性能的前向差异和后向差异。此研究拓展了我们对 LLM 推理的理解,并提出了改进它们解决问题能力的方法。
Jun, 2024