测量推断和规则理解能力的逻辑任务
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
通过对最新进展的简要回顾,本文试图了解大型语言模型在逻辑推理方面的能力,包括逻辑推理数据集、任务以及利用大型语言模型进行推理的方法。通过构建基准测试集 LogiGLUE,并训练一个经过指令微调的语言模型 LogiT5,研究了单任务训练、多任务训练以及思维链知识蒸馏微调技术在不同逻辑推理类别上的表现,旨在揭示大型语言模型在逻辑推理中的能力和潜在路径,为该关键领域的高级和精细化发展铺平道路。
Oct, 2023
本研究探究如何将较小的语言模型与多步推理能力相结合,通过在合成数据集 MsAT 上进行持续的预训练,我们的实验证明了该方法对增强语言模型的数学推理能力的有效性。
Jun, 2023
大型语言模型在抽象推理任务上表现优秀,但与人类推理问题存在相似的缺陷,同时受到人类知识和信仰的影响,使用可信的现实情境方案进行推理可以提高推理质量,这种关联性帮助我们了解认知效应和语言模型表现的因素。
Jul, 2022
该研究针对数学领域中的推理、学习、应用规则等独特挑战,提出了一个数学问题套件的任务,用于测试和评估神经架构等系统的性能、能力和失效模式。通过生成数据并运用序列到序列的最强模型,可以从不同角度评估模型在数学问题解决和知识推广方面的能力。
Apr, 2019
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行 “推理” 吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
本文综述了一种新的逻辑推理范式,它使用自然语言作为知识表示(并使用预训练语言模型作为推理器),包括逻辑推理的哲学定义和分类、新范式的优势、基准和方法、新范式的挑战、未来的可取任务和方法以及与相关 NLP 领域的关系。这种新范式具有很好的前景,因为它不仅可以缓解正式表示的许多挑战,而且还对端到端的神经方法具有优势。
Mar, 2023
在本文中,我们通过系统地研究律师入学考试的三项具有挑战性并且领域通用的任务,包括分析推理、逻辑推理和阅读理解,进一步推进了复杂推理。我们提出了一个混合推理系统,将这三个任务进行整合,并在律师入学考试中获得了令人印象深刻的整体表现。实验结果表明,我们的系统具有一定的复杂推理能力,特别是基本阅读理解和具有挑战性的逻辑推理能力。进一步分析还显示了将预训练模型与任务专用的推理模块相结合,以及将符号知识整合到复杂推理的离散可解释推理步骤中的有效性。我们进一步展示了未来潜在的方向,如无监督符号知识提取、模型可解释性、小样本学习和复杂推理的全面基准。
Aug, 2021