理性飞跃：教授预训练模型系统性地推理隐含知识

Jun, 2020

理性飞跃：教授预训练模型系统性地推理隐含知识

Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason Over Implicit Knowledge

Alon Talmor, Oyvind Tafjord, Peter Clark, Yoav Goldberg, Jonathan Berant

TL;DR该研究证明，通过使用既有的预训练模型中的隐含知识以及显式的自然语言陈述，神经网络可以可靠地执行系统性推理任务，这为开放领域的系统不断与用户交互、持续改进的路径铺平了道路。

Abstract

To what extent can a neural network systematically reason over symbolic facts? Evidence suggests that large pre-trained language models (LMs) acquire some →

neural network reasoning pre-trained language models implicit knowledge natural language statements

发现论文，激发创造

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

预先训练的语言模型是否具备演绎推理能力？

本文对预训练语言模型的可学习演绎性能进行了全面评估，发现该模型存在推理规则泛化不足、对表面形式的修改表现不稳定、在推理过程中出现遗忘现象等问题，说明预训练语言模型对于演绎推理的表现仍不可靠，远未达到人类的推理能力。

Oct, 2022

将数字推理技能注入语言模型

通过在大量数据集上进行多任务训练，我们展示了数值推理可以注入到预训练的语言模型中，使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练，我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美，同时在数学单词问题数据集上保持高性能，这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。

Apr, 2020

符号表示对于背景下少样本推理学习的影响

本研究的主要目标是使用预先训练的语言模型来进行推理，特别是在推理时使用解释以增强上下文学习。作者将神经符号方法重新引入到这个任务中，并将语言模型作为逻辑程序员，以在知识库中迭代推理。实验结果表明，相对于上下文学习策略， LMLP 在演绎和长度归纳基准测试中表现得更加优秀。

Dec, 2022

一种基于预备知识库的常识推理教授预训练模型的初步方法

通过利用 ConceptNet 中的结构化知识，构造逻辑形式并生成常识性逻辑推理的多项选择题进行训练，我们提出了一种简单而有效的方法来教授预训练模型常识性推理，实验结果表明，这种训练可以使预训练模型在需要常识性推理的任务上表现稳定提升，特别是在少样本学习设置下。

Sep, 2019

通过知识蒸馏进行的隐含推理链条

使用语言模型的内部隐藏状态进行隐式推理，通过垂直在不同层的隐藏状态中进行推理来解决以前无法解决的任务，而无需进行明确的思维链条推理。

Nov, 2023

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

使用 Transformer 测量神经证明生成中的系统化概括能力

研究 Transformer 语言模型在自然语言中进行基于逻辑推理的任务，探究它们的系统泛化能力，发现其在逆向推理证明方面表现更优，并且发现没有经过证明生成训练的模型更适合处理长证明的问题。研究结果强调了 TLM 在逻辑推理中的系统泛化行为，并且对其核心推理策略的深入研究提出了启示。

Sep, 2020

大型语言模型能够学习时间推理

我们提出了一种新的基于文本的时间推理模型 TempGraph-LLM，通过将上下文翻译成时间图，教导大型语言模型 (LLMs) 学习时间概念。我们证明了在其他任务上的预训练对 LLMs 的效益，并通过思路链的引导和特殊数据增强引导 LLMs 进行符号推理，观察到符号推理带来更一致可靠的结果。

Jan, 2024

语言模型中的概念和公正推理

我们提出了一个新的概念化框架，迫使模型在抽象问题上进行概念推理并在可验证的符号空间中生成解决方案，使用这个框架作为分析工具，我们发现现有的大型语言模型在概念推理方面存在不足，并通过引入可信的归纳信号来改善模型的概念推理性能，实验证明我们提出的技术使模型的概念推理性能提高了 8% 至 11%，实现了一个更强大的推理系统，更少地依赖归纳偏见。

Mar, 2024