多阶段逻辑推理能力评估的目标：Multi-LogiEval

Jun, 2024

多阶段逻辑推理能力评估的目标：Multi-LogiEval

Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models

Nisarg Patel, Mohith Kulkarni, Mihir Parmar, Aashna Budhiraja, Mutsumi Nakamura...

TL;DR为了评估大型语言模型在人类式的多步逻辑推理方面的能力，我们提出了一种综合评估数据集Multi-LogiEval，该数据集囊括了多步逻辑推理、各种推理规则和深度，并覆盖了命题逻辑、一阶逻辑和非单调逻辑等三种逻辑类型。实验结果表明，随着推理步骤/深度的增加，语言模型的性能显著下降（在深度为1时平均准确率约为68%，深度为5时约为43%）。我们相信Multi-LogiEval将有助于以后评估和提升大型语言模型的逻辑推理能力。

Abstract

As large language models (LLMs) continue to exhibit remarkable performance in natural language understanding tasks, there is a crucial need to measure their ability for human-like multi-step logical reasoning. Ex

发现论文，激发创造

使用大型语言模型进行可解释的逻辑推理的Selection-Inference方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022

大型语言模型真的是良好的逻辑推理者吗？从演绎、归纳和举例推理的综合评估

本文针对大型语言模型的逻辑推理能力进行全面评估，选择15个经典数据集，评估模型的零点、单点和三点能力，提出客观和主观的细化评估方法，归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。

Jun, 2023

LogiGLUE: 逻辑推理能力的语言模型分析调查和基准评测

通过对最新进展的简要回顾，本文试图了解大型语言模型在逻辑推理方面的能力，包括逻辑推理数据集、任务以及利用大型语言模型进行推理的方法。通过构建基准测试集LogiGLUE，并训练一个经过指令微调的语言模型LogiT5，研究了单任务训练、多任务训练以及思维链知识蒸馏微调技术在不同逻辑推理类别上的表现，旨在揭示大型语言模型在逻辑推理中的能力和潜在路径，为该关键领域的高级和精细化发展铺平道路。

Oct, 2023

GLoRE：评估大型语言模型的逻辑推理能力

该篇研究论文主要介绍了大型语言模型的逻辑推理能力评估，提出了一个名为GLoRE的评估基准，包含12个数据集，通过实验证明了ChatGPT和GPT-4在逻辑推理方面的强大能力，并提出了改进方法，发布了数据集和评估程序以促进未来的研究。

Oct, 2023

大规模语言模型对于超领域逻辑推理任务的系统评估

大型语言模型在逻辑推理任务中的泛化性和鲁棒性评估及改善的研究。

Oct, 2023

NPHardEval: 复杂类别下大型语言模型推理能力的动态评估基准

本研究引入了一个名为NPHardEval的新基准，旨在评估大型语言模型（LLMs）的推理能力。通过比较LLMs在复杂类别上的表现，提供了对LLMs推理能力的客观且严格的观点。此基准通过900个算法问题的广泛谱系评估LLMs的推理能力，从NP-Hard复杂类别扩展到以下较低的复杂类别，并通过每月更新数据点来减轻LLMs过拟合的风险，促进更准确可靠的能力评估。

Dec, 2023

LLM推理器：大型语言模型逐步推理的新评估、库和分析

该论文介绍了 AutoRace 和 LLM Reasoners，分别用于评估和实现不同的推理方法，以解决大型语言模型在生成推理链时所面临的挑战。

Apr, 2024

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行“推理”吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

CLR-Fact：评估大语言模型在事实知识上的复杂逻辑推理能力

本研究解决了大语言模型在复杂逻辑推理中的能力不足。通过自动生成复杂推理问题的新基准，我们发现通过显式的思维链提示可以显著提高模型的推理性能。此外，我们揭示了模型在集合并运算方面表现良好，但在集合交集运算方面面临重大挑战，这对于逻辑推理至关重要。

Jul, 2024

ProcBench：多步骤推理和程序跟随的基准

本研究解决了大型语言模型在推理任务中的性能限制问题。我们提出了一种新的基准，专注于多步骤推理的直接评估，通过设计明确的指令和对应问题对，来检验模型的指令遵循能力。研究发现提供的指令可显著提高大型语言模型在推理任务中的表现，为未来研究指明了方向。

Oct, 2024