优化大型语言模型中的逻辑推理以促进法律应用
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识,从而提高语言模型的逻辑推理能力,取得了比现有基线更好的效果。
May, 2023
本文综述了大型语言模型在推理方面的最新研究,包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法,以及这一领域之前研究的发现和意义,旨在激发有意义的讨论和未来的研究。
Dec, 2022
Logic-LM 是一种将大型语言模型与符号推理相结合的框架,通过首先使用大型语言模型将自然语言问题转化为符号形式,然后进行确定性符号求解,以及自我精炼阶段来修正符号形式,在 ProofWriter、PrOntoQA、FOLIO 和 LogicalDeduction 等四个逻辑推理数据集上的结果表明,与仅使用大型语言模型相比,我们的方法可以显著提高逻辑推理的性能。
May, 2023
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行 “推理” 吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
大型语言模型在生成个性化内容和促进交互对话方面表现出色,但在推理能力和提供可解释性输出方面仍有待提高。本研究深入探讨了大型语言模型的推理能力,突出了当前挑战和限制,阻碍了它们在复杂推理场景中的有效性。
Feb, 2024
通过对最新进展的简要回顾,本文试图了解大型语言模型在逻辑推理方面的能力,包括逻辑推理数据集、任务以及利用大型语言模型进行推理的方法。通过构建基准测试集 LogiGLUE,并训练一个经过指令微调的语言模型 LogiT5,研究了单任务训练、多任务训练以及思维链知识蒸馏微调技术在不同逻辑推理类别上的表现,旨在揭示大型语言模型在逻辑推理中的能力和潜在路径,为该关键领域的高级和精细化发展铺平道路。
Oct, 2023
利用分布式网络的 “归纳学习” 方法可以提高小型语言模型的推理能力,从而弥补其依赖统计模式容易产生错误答案的局限性,并可能使其逼近高参数模型在逻辑应用上所取得的水平,从而弥合人类和大型语言模型在各个领域之间的逻辑差距。
Feb, 2024