深度研究逻辑推理与LLM:工具选择的重要性
Logic-LM是一种将大型语言模型与符号推理相结合的框架,通过首先使用大型语言模型将自然语言问题转化为符号形式,然后进行确定性符号求解,以及自我精炼阶段来修正符号形式,在ProofWriter、PrOntoQA、FOLIO和LogicalDeduction等四个逻辑推理数据集上的结果表明,与仅使用大型语言模型相比,我们的方法可以显著提高逻辑推理的性能。
May, 2023
本文针对大型语言模型的逻辑推理能力进行全面评估,选择15个经典数据集,评估模型的零点、单点和三点能力,提出客观和主观的细化评估方法,归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。
Jun, 2023
通过对最新进展的简要回顾,本文试图了解大型语言模型在逻辑推理方面的能力,包括逻辑推理数据集、任务以及利用大型语言模型进行推理的方法。通过构建基准测试集LogiGLUE,并训练一个经过指令微调的语言模型LogiT5,研究了单任务训练、多任务训练以及思维链知识蒸馏微调技术在不同逻辑推理类别上的表现,旨在揭示大型语言模型在逻辑推理中的能力和潜在路径,为该关键领域的高级和精细化发展铺平道路。
Oct, 2023
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集(LMM-LR)对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
我们引入了LogicAsker,它是一种自动方法,全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力,并揭示了LLM未能学好的逻辑规则。我们评估了LogicAsker在GPT-3、ChatGPT、GPT-4、Bard、Vicuna和Guanaco等主要的大型语言模型上,并展示了LogicAsker的测试用例在不同LLM中发现逻辑推理错误的比率从25%到94%不等。此外,LogicAsker的测试用例可以进一步用于设计上下文学习的演示例子,有效提高LLM的逻辑推理能力,如GPT-4提高了10%。据我们所知,我们的工作是首次基于测试结果创建提示来有效提高LLM的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。
Jan, 2024
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行“推理”吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
本文研究大型语言模型在复杂推理任务中的局限性,提出了Logic-LM++作为对Logic-LM和基于LLMs的技术的改进,通过利用LLMs进行成对比较,可以评估LLM建议的改进。研究结果表明,在自然语言推理任务中,Logic-LM++在两个数据集FOLIO和AR-LSAT上的性能优于Logic-LM和基于LLMs的技术,标准提示的平均改进率为13.5%,思维链提示的改进率为11%,而Logic-LM的改进率为5%。
Jun, 2024
本文解决了大型语言模型在逻辑推理任务中准确性不足的问题。研究提出了一种神经符号架构,通过将LLM作为翻译前端并结合自动推理引擎来解决逻辑问题,实现了基于自动定理证明器的语义错误修正。结果表明,该方法显著减少了语义错误,提高了LLM的推理准确性。
Aug, 2024
本研究探讨了大型语言模型(LLMs)在推理能力方面的不足,尤其是在解释其推理过程和结论方面的缺失。文章提出了一种新的视角来审视LLMs的符号推理能力,并识别出当前研究的不足之处,展望未来的研究趋势,强调了LLMs在解释性方面的潜在影响。
Oct, 2024
本研究解决了大型语言模型(LLMs)在逻辑推理中的泛化能力不足和信息损失问题。我们提出了一种名为LINA的神经符号方法,使LLM能够自主从命题逻辑提取过渡到复杂的逻辑推理,从而提高推理过程的稳健性,并消除对外部求解器的依赖。实验表明,LINA在五个逻辑推理任务中表现优于传统方法,其在FOLIO数据集上的性能提升达24.34%。
Oct, 2024