起飞准备好了吗?构成和条件推理可能是(预订航班)语言代理的致命弱点
探索大型语言模型(LLMs)在逻辑推理能力方面的表现,重点关注涉及条件句和认识模态的推理模式,并发现大部分模型在条件句方面存在基本错误,甚至最新的 GPT-4 在涉及认识模态的推理模式中也存在逻辑上的不一致判断。
Jan, 2024
通过引入空间和时间抽象例程以及利用少量标记示例自动生成上下文例子,我们提出了一个框架来消除人为构建的上下文例子,从而解决了可视推理中的一些问题并提升了性能。
Jan, 2024
我们引入了 LogicAsker,它是一种自动方法,全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力,并揭示了 LLM 未能学好的逻辑规则。我们评估了 LogicAsker 在 GPT-3、ChatGPT、GPT-4、Bard、Vicuna 和 Guanaco 等主要的大型语言模型上,并展示了 LogicAsker 的测试用例在不同 LLM 中发现逻辑推理错误的比率从 25% 到 94% 不等。此外,LogicAsker 的测试用例可以进一步用于设计上下文学习的演示例子,有效提高 LLM 的逻辑推理能力,如 GPT-4 提高了 10%。据我们所知,我们的工作是首次基于测试结果创建提示来有效提高 LLM 的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。
Jan, 2024
大型语言模型在数学推理方面研究了系统组合性,通过引入精心设计的逻辑漏洞陷阱构建了一个新的数据集 MathTrap,发现虽然大型语言模型具备所需知识的两个组成部分,但它们不会自发地组合起来处理这些新问题,通过自然语言提示、少示范演示和微调等多种方法可以减轻这种缺陷,但系统的组合性仍然是大型语言模型面临的一个未解决挑战。
May, 2024
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行 “推理” 吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
最近的大型语言模型(LLMs)在需要人类智能的任务上展示了令人瞩目的能力,是走向人类智能的重要一步。然而,LLMs 在推理任务上的表现相对较差,其推理能力成为一个重大争议。我们引入了一种称为组合推理(CR)的全自动提示方法的框架,其中理由是从 LLM 管道中采样并映射到一个二次无约束二进制优化(QUBO)问题中。该框架探索了 QUBO 解决方案是否可以有利地用于选择一个有用的理由子集来构建一种 “思维链” 的提示。我们研究了使用专门求解器加速 CR 的方法。我们还调查了简单的零样本策略,如线性多数规则或随机选择的理由。我们的初步研究表明,将组合求解器与生成型人工智能管道相结合是人工智能推理的有趣途径,并阐明了未来 CR 方法的设计原则。
Jun, 2024
探究了语言模型在对复合性推理任务中的表现,提出了评估模型的整体解决方案的组成性差异比率,并发现随着模型大小的增加,其单次跳问题回答的性能比多次跳问题更快提高,而提供良好的渐进提示可以缩小这种差距,其中 self-ask 方法最近进一步提高了精度。
Oct, 2022
通过对最新进展的简要回顾,本文试图了解大型语言模型在逻辑推理方面的能力,包括逻辑推理数据集、任务以及利用大型语言模型进行推理的方法。通过构建基准测试集 LogiGLUE,并训练一个经过指令微调的语言模型 LogiT5,研究了单任务训练、多任务训练以及思维链知识蒸馏微调技术在不同逻辑推理类别上的表现,旨在揭示大型语言模型在逻辑推理中的能力和潜在路径,为该关键领域的高级和精细化发展铺平道路。
Oct, 2023
我们提出了一个新的概念化框架,迫使模型在抽象问题上进行概念推理并在可验证的符号空间中生成解决方案,使用这个框架作为分析工具,我们发现现有的大型语言模型在概念推理方面存在不足,并通过引入可信的归纳信号来改善模型的概念推理性能,实验证明我们提出的技术使模型的概念推理性能提高了 8% 至 11%,实现了一个更强大的推理系统,更少地依赖归纳偏见。
Mar, 2024