一个基于逻辑模式记忆的预训练模型用于蕴含树生成
本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识,从而提高语言模型的逻辑推理能力,取得了比现有基线更好的效果。
May, 2023
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
我们提出了一种新的基于文本的时间推理模型 TempGraph-LLM,通过将上下文翻译成时间图,教导大型语言模型 (LLMs) 学习时间概念。我们证明了在其他任务上的预训练对 LLMs 的效益,并通过思路链的引导和特殊数据增强引导 LLMs 进行符号推理,观察到符号推理带来更一致可靠的结果。
Jan, 2024
该研究通过比较人类和大型语言模型(LLMs)之间的推理判断的共性和差异,以及对三个类别(NLI、contextual QA 和 rationales)的多个数据集进行评估,揭示了 LLMs 在复杂推理环境中的多步推理上的优势和人类在简单推理方面的优势,并引入了一种经过精细调整的 Flan-T5 模型来提高自洽性,在三个多项选择问答数据集上平均提高了 6% 的性能。
Feb, 2024
将逻辑注入语言模型的新型基于图的语言模型 Logical-GLM,通过捕捉自由形式文本中所包含的隐含规则,并生成逻辑骨架以指导语言模型的训练,从而实现更准确的文本生成和可解释性,并通过使用逻辑图反映语言模型的内在机制提高黑盒模型的可解释性。
Aug, 2023
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行 “推理” 吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
本文提出了一种基于文本编码的结构模型框架,用于在知识图谱上进行归纳逻辑推理,通过设计渐进式的指令和额外的注意力和 maxout 层来增强结构建模,成功处理了复杂查询的逻辑结构,提高了在归纳和转导数据集上的推理效率。
May, 2023
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
本文对大型语言模型在逻辑推理方面进行了全面评估,提出了一种基于选择和推理的框架,可以在不进行微调的情况下改进性能,并伴随着因果自然语言推理过程的答案。
May, 2022