生成语言模型中演绎推理的出现
通过对一组广泛的演绎规则的测试,本研究构建了一个新的合成和可编程推理数据集,测试了四个不同的大型语言模型在推理能力上的推广性,结果显示它们能够通过显式证明来产生假设性子证明 。
May, 2023
通过使用描述逻辑知识库构建一个合成的自然语言问答数据集,本研究评估了基于 transformer 的模型在推理能力、合成语境和知识库相关的问题上的表现,并展示了模型在训练过程中对不同推理深度的泛化能力。
Nov, 2023
本研究探讨了大型语言模型(比如 GPT-3)在模拟人类的模拟推理能力方面的表现,特别是它在没有直接训练的情况下是否能够进行零样本推理。研究发现,GPT-3 在抽象模式归纳方面具有出色的能力,并能够在大多数场景中匹配或超过人类的能力。因此,大型语言模型能够在许多类比问题中找到零样本解决方案。
Dec, 2022
本文对预训练语言模型的可学习演绎性能进行了全面评估,发现该模型存在推理规则泛化不足、对表面形式的修改表现不稳定、在推理过程中出现遗忘现象等问题,说明预训练语言模型对于演绎推理的表现仍不可靠,远未达到人类的推理能力。
Oct, 2022
本论文研究了在演绎推理中的胜于推理论据,强调它们在法律、哲学和人工智能等领域的相关性。研究集中于利用 GPT-3.5-turbo 自动化分析这些论据,并着重于理解复杂的推理过程、生成清晰连贯的解释以及创建新颖的论据。尽管 GPT-3.5-turbo 在准确检测和分类胜于论据方面面临一些挑战,但该模型展现出与专门模型相媲美的性能,尤其是在提取关键组成部分和解释底层属性方面。此外,将外部信息整合到模型的处理过程中显著提高了生成解释的质量。尽管存在某些限制,这篇论文对人工智能和逻辑推理领域做出了重要贡献,引入了新的方法论,建立了严格的评估框架,并提供了深入的见解,为自动化逻辑推理的未来发展奠定了基础。本文所提出的发现和方法不仅凸显了人工智能在复杂推理任务中的潜力,也突出了未来研究和发展的方向。
Nov, 2023
我们研究 transformers 模型是否能够学会隐性地进行参数化知识推理,发现它们能够通过全面且超过过拟合的训练学会隐性推理,但在不同推理类型上的推广程度存在差异:在面对分布之外的例子时,transformers 在组合推理上无法进行系统化推广但在比较推理上能够成功。通过训练期间对模型内部进行分析实验,我们发现了隐性推理的机制,如泛化电路的形成以及它与泛化和记忆电路相对效率的关系,还发现了系统性与泛化电路配置之间的关系。我们的研究结果指导着数据和训练设置,以更好地实现隐性推理,并提出了改进 transformer 架构的潜在方法,如鼓励跨层面的知识共享。此外,我们证明对于具有大型搜索空间的具有挑战性的推理任务,基于非参数化记忆的 GPT-4-Turbo 和 Gemini-1.5-Pro 无论在提示样式还是检索增强方面都表现糟糕,而完全掌握隐性推理的 transformers 模型能够实现近乎完美的准确性,展示了参数化记忆在复杂推理中的威力。
May, 2024
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
该研究证明,通过使用既有的预训练模型中的隐含知识以及显式的自然语言陈述,神经网络可以可靠地执行系统性推理任务,这为开放领域的系统不断与用户交互、持续改进的路径铺平了道路。
Jun, 2020
本文探讨了基于 Transformer 的语言模型在自动定理证明中的应用,提出了基于语言模型的生成能够解决自动定理证明器与人类相比的主要限制之一 —— 原始数学术语的生成问题。我们提出了一个自动证明器和证明辅助工具 GPT-f,使用 Metamath 形式语言,并分析了其性能。 GPT-f 发现了新的简短证明,并被采纳为正式数学社区所接受,这是我们所知道的第一次基于深度学习的系统为正式数学社区做出的贡献。
Sep, 2020
利用培训语言模型模仿定理证明器在过程生成的问题上进行逻辑推理仍然是自然语言处理的一个挑战。我们提出了一个更简单、更普遍的声明性框架,通过灵活的上下文敏感规则来绑定多种语言(特别是简化英语和 TPTP 定理证明语言),从而改进了逻辑推理的能力。我们使用语义约束在生成过程中,并对谓词进行仔细的英语表达,提高了逻辑推理能力,而不损害自然英语任务。我们使用相对较小的 DeBERTa-v3 模型在人类编写的逻辑数据集 FOLIO 上实现了最先进的准确性,在有或无外部求解器的情况下,精度超过了 GPT-4 12%。
Jun, 2024