使用大型语言模型进行可解释的逻辑推理的Selection-Inference方法
通过串联使用微调语言模型进行多步推理的方法,可以解决大型语言模型的单次调用限制,提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型,并生成可由用户检查的有效推理过程。
Aug, 2022
提出了一个两阶段概率推理模型,ThinkSum,用于大语言模型的推理和理解。ThinkSum能够对多个对象或事实进行结构化推理和引用,并在BIG-bench评估任务中取得了改进成果。
Oct, 2022
本研究通过使用不同的模型进行模型选择,在充分分析理论基础上,在八个推理数据集上实现了显著的性能改进,并在GSM8K和SVAMP上实现了96.5%和93.7%的准确率,达到了最新的研究成果。
May, 2023
本文针对大型语言模型的逻辑推理能力进行全面评估,选择15个经典数据集,评估模型的零点、单点和三点能力,提出客观和主观的细化评估方法,归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。
Jun, 2023
通过对最新进展的简要回顾,本文试图了解大型语言模型在逻辑推理方面的能力,包括逻辑推理数据集、任务以及利用大型语言模型进行推理的方法。通过构建基准测试集LogiGLUE,并训练一个经过指令微调的语言模型LogiT5,研究了单任务训练、多任务训练以及思维链知识蒸馏微调技术在不同逻辑推理类别上的表现,旨在揭示大型语言模型在逻辑推理中的能力和潜在路径,为该关键领域的高级和精细化发展铺平道路。
Oct, 2023
大型语言模型在逻辑推理和符号推理等复杂场景中表现出色,但其在理解逻辑规则上存在限制,本文通过反事实方法探讨了大型语言模型的推理能力,强调了加强机制以确保其可靠的逻辑推理的需求。
Feb, 2024
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行“推理”吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
为了评估大型语言模型在人类式的多步逻辑推理方面的能力,我们提出了一种综合评估数据集Multi-LogiEval,该数据集囊括了多步逻辑推理、各种推理规则和深度,并覆盖了命题逻辑、一阶逻辑和非单调逻辑等三种逻辑类型。实验结果表明,随着推理步骤/深度的增加,语言模型的性能显著下降(在深度为1时平均准确率约为68%,深度为5时约为43%)。我们相信Multi-LogiEval将有助于以后评估和提升大型语言模型的逻辑推理能力。
Jun, 2024
本研究解决了大语言模型在复杂逻辑推理中的能力不足。通过自动生成复杂推理问题的新基准,我们发现通过显式的思维链提示可以显著提高模型的推理性能。此外,我们揭示了模型在集合并运算方面表现良好,但在集合交集运算方面面临重大挑战,这对于逻辑推理至关重要。
Jul, 2024