理性飞跃:教授预训练模型系统性地推理隐含知识
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
本文对预训练语言模型的可学习演绎性能进行了全面评估,发现该模型存在推理规则泛化不足、对表面形式的修改表现不稳定、在推理过程中出现遗忘现象等问题,说明预训练语言模型对于演绎推理的表现仍不可靠,远未达到人类的推理能力。
Oct, 2022
通过在大量数据集上进行多任务训练,我们展示了数值推理可以注入到预训练的语言模型中,使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练,我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美,同时在数学单词问题数据集上保持高性能,这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。
Apr, 2020
本研究的主要目标是使用预先训练的语言模型来进行推理,特别是在推理时使用解释以增强上下文学习。作者将神经符号方法重新引入到这个任务中,并将语言模型作为逻辑程序员,以在知识库中迭代推理。实验结果表明,相对于上下文学习策略, LMLP 在演绎和长度归纳基准测试中表现得更加优秀。
Dec, 2022
通过利用 ConceptNet 中的结构化知识,构造逻辑形式并生成常识性逻辑推理的多项选择题进行训练,我们提出了一种简单而有效的方法来教授预训练模型常识性推理,实验结果表明,这种训练可以使预训练模型在需要常识性推理的任务上表现稳定提升,特别是在少样本学习设置下。
Sep, 2019
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行 “推理” 吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
研究 Transformer 语言模型在自然语言中进行基于逻辑推理的任务,探究它们的系统泛化能力,发现其在逆向推理证明方面表现更优,并且发现没有经过证明生成训练的模型更适合处理长证明的问题。研究结果强调了 TLM 在逻辑推理中的系统泛化行为,并且对其核心推理策略的深入研究提出了启示。
Sep, 2020
我们提出了一种新的基于文本的时间推理模型 TempGraph-LLM,通过将上下文翻译成时间图,教导大型语言模型 (LLMs) 学习时间概念。我们证明了在其他任务上的预训练对 LLMs 的效益,并通过思路链的引导和特殊数据增强引导 LLMs 进行符号推理,观察到符号推理带来更一致可靠的结果。
Jan, 2024
我们提出了一个新的概念化框架,迫使模型在抽象问题上进行概念推理并在可验证的符号空间中生成解决方案,使用这个框架作为分析工具,我们发现现有的大型语言模型在概念推理方面存在不足,并通过引入可信的归纳信号来改善模型的概念推理性能,实验证明我们提出的技术使模型的概念推理性能提高了 8% 至 11%,实现了一个更强大的推理系统,更少地依赖归纳偏见。
Mar, 2024