通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
本研究考虑了大型语言模型(LLMs)在推理涉及概率值明确量化的文本时面临的挑战。通过引入贝叶斯语言推理数据集(BLInD),我们详细说明了 LLMs 在涉及概率推理的任务中的限制,并提出了几种将问题映射到不同形式表示的策略。我们通过在 BLInD 上进行评估以及对因果推理问答数据集的适应性改编等实验证明了这些方法的实际效果。
Feb, 2024
本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识,从而提高语言模型的逻辑推理能力,取得了比现有基线更好的效果。
May, 2023
这篇论文介绍了一个严格设计的框架,用于创建能够有效锚定知识并采用闭环推理过程的大型语言模型,以提升其进行深入分析的能力,同时解剖了该框架的组成部分对模型性能的贡献,从而为改进推理能力提供了理论保证。
Nov, 2023
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
利用分布式网络的 “归纳学习” 方法可以提高小型语言模型的推理能力,从而弥补其依赖统计模式容易产生错误答案的局限性,并可能使其逼近高参数模型在逻辑应用上所取得的水平,从而弥合人类和大型语言模型在各个领域之间的逻辑差距。
大型语言模型在逻辑推理和符号推理等复杂场景中表现出色,但其在理解逻辑规则上存在限制,本文通过反事实方法探讨了大型语言模型的推理能力,强调了加强机制以确保其可靠的逻辑推理的需求。
通过强化学习与逻辑反馈,加强语言模型在逻辑推理方面的能力,为处理复杂法律推理任务的大型语言模型的发展提供新的研究途径,并承认了语言与逻辑之间的基本联系。
本文提出了一种方法,使用未标注的数据进行自我训练和推理提高,通过 fine-tuning 在多个任务上达到了 SOTA 水平。
Oct, 2022
大型语言模型 (LLMs) 在很多推理任务中表现出良好的性能,但在某些复杂推理任务,特别是逻辑推理方面仍然存在困难。为了评估 LLMs 的逻辑谬误理解能力 (LFU),我们在本文中从 WHAT、WHY 和 HOW 三个认知维度中提出了五个具体任务。为了解决这些 LFU 任务,我们成功构建了一个新的基于 GPT-4 的数据集 LFUD,只需少量人工参与。我们的广泛实验证明,我们的 LFUD 不仅可以用于评估 LLMs 的 LFU 能力,还可以通过微调 LLMs 在逻辑推理方面获得显著的性能提升。
Apr, 2024