CLR-Fact:评估大语言模型在事实知识上的复杂逻辑推理能力
本文对大型语言模型在逻辑推理方面进行了全面评估,提出了一种基于选择和推理的框架,可以在不进行微调的情况下改进性能,并伴随着因果自然语言推理过程的答案。
May, 2022
本文针对大型语言模型的逻辑推理能力进行全面评估,选择15个经典数据集,评估模型的零点、单点和三点能力,提出客观和主观的细化评估方法,归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。
Jun, 2023
通过对最新进展的简要回顾,本文试图了解大型语言模型在逻辑推理方面的能力,包括逻辑推理数据集、任务以及利用大型语言模型进行推理的方法。通过构建基准测试集LogiGLUE,并训练一个经过指令微调的语言模型LogiT5,研究了单任务训练、多任务训练以及思维链知识蒸馏微调技术在不同逻辑推理类别上的表现,旨在揭示大型语言模型在逻辑推理中的能力和潜在路径,为该关键领域的高级和精细化发展铺平道路。
Oct, 2023
本研究引入了一个名为NPHardEval的新基准,旨在评估大型语言模型(LLMs)的推理能力。通过比较LLMs在复杂类别上的表现,提供了对LLMs推理能力的客观且严格的观点。此基准通过900个算法问题的广泛谱系评估LLMs的推理能力,从NP-Hard复杂类别扩展到以下较低的复杂类别,并通过每月更新数据点来减轻LLMs过拟合的风险,促进更准确可靠的能力评估。
Dec, 2023
我们设计了一个初步的研究,以量化和深入探讨现有大型语言模型的抽象推理能力。我们的结果显示,我们的方法不仅提高了大型语言模型的一般推理性能,而且在抽象推理能力方面取得了可观的进展,从简单的记忆或模仿转向了更加精细的对通用事实的理解和应用。
Mar, 2024
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行“推理”吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
为了评估大型语言模型在人类式的多步逻辑推理方面的能力,我们提出了一种综合评估数据集Multi-LogiEval,该数据集囊括了多步逻辑推理、各种推理规则和深度,并覆盖了命题逻辑、一阶逻辑和非单调逻辑等三种逻辑类型。实验结果表明,随着推理步骤/深度的增加,语言模型的性能显著下降(在深度为1时平均准确率约为68%,深度为5时约为43%)。我们相信Multi-LogiEval将有助于以后评估和提升大型语言模型的逻辑推理能力。
Jun, 2024
通过将复杂的现实世界问题分解成图形,将每个问题表示为一个节点,并使用具有解决问题所需背景知识的父节点来研究大型语言模型(LLMs)如何利用知识进行推理。使用分层图形,我们量化了LLMs在较简单子问题与复杂问题上性能的前向差异和后向差异。此研究拓展了我们对LLM推理的理解,并提出了改进它们解决问题能力的方法。
Jun, 2024
本文研究大型语言模型在复杂推理任务中的局限性,提出了Logic-LM++作为对Logic-LM和基于LLMs的技术的改进,通过利用LLMs进行成对比较,可以评估LLM建议的改进。研究结果表明,在自然语言推理任务中,Logic-LM++在两个数据集FOLIO和AR-LSAT上的性能优于Logic-LM和基于LLMs的技术,标准提示的平均改进率为13.5%,思维链提示的改进率为11%,而Logic-LM的改进率为5%。
Jun, 2024
我们提出了一种神经符号化方法,该方法通过提示大型语言模型从问题陈述中提取和编码所有相关信息作为逻辑代码语句,并使用逻辑编程语言(Prolog)进行明确的演绎推理的迭代计算,从而显著提高了大型语言模型在标准数学推理基准测试GSM8k和BIG-bench数据集的Navigate数据集上的性能。此外,我们引入了一个新的数据集,Non-Linear Reasoning(NLR)数据集,包含55个唯一的单词问题,针对大型语言模型的下一个令牌预测范式的缺点,并要求使用基本算术技能解决复杂的非线性推理。我们的研究结果表明,Prolog的集成使得大型语言模型能够在NLR数据集上实现高性能,在此任务上,甚至包括GPT4在内的最先进语言模型都无法通过纯文本解决。
Jul, 2024