GLoRE：评估大型语言模型的逻辑推理能力

Oct, 2023

GLoRE：评估大型语言模型的逻辑推理能力

GLoRE: Evaluating Logical Reasoning of Large Language Models

Hanmeng liu, Zhiyang Teng, Ruoxi Ning, Jian Liu, Qiji Zhou...

TL;DR该篇研究论文主要介绍了大型语言模型的逻辑推理能力评估，提出了一个名为GLoRE的评估基准，包含12个数据集，通过实验证明了ChatGPT和GPT-4在逻辑推理方面的强大能力，并提出了改进方法，发布了数据集和评估程序以促进未来的研究。

Abstract

Recently, large language models (LLMs), including notable models such as GPT-4 and burgeoning community models, have showcased significant general language understanding abilities. However, there has been a scarcity of attempts to assess the →

发现论文，激发创造

GPT-Neo用于常识推理——理论和实践视角

本文评估了GPT-neo 1.3亿模型在常识推理任务上的表现，发现模型在某些任务上具有竞争力，但当数据集大小显著较小时表现会很差。研究者还使用可视化和推理测试来证实结果，并通过多种方法进行彻底的健壮性测试。

Nov, 2022

评估ChatGPT和GPT-4的逻辑推理能力

本研究评估了 GPT-4 在逻辑推断任务中的性能，包括多项逻辑推断数据集的测试以及构建一个逻辑推理离散数据集进行实验。结论显示，尽管 GPT-4 表现优异，但逻辑推理对 ChatGPT 和 GPT-4 来说仍然是一项挑战。

Apr, 2023

思维链中枢: 评估大型语言模型推理性能的持续努力

提出了一个开源评估套件链式思维中心，用于评估大型语言模型在多步推理能力方面的性能，并针对一系列有挑战性的应用场景提供基准测试，目前的结果表明，模型规模与推理能力密切相关，需要更多开源社区的努力来构建更好的基础模型和探索RLHF。

May, 2023

大型语言模型真的是良好的逻辑推理者吗？从演绎、归纳和举例推理的综合评估

本文针对大型语言模型的逻辑推理能力进行全面评估，选择15个经典数据集，评估模型的零点、单点和三点能力，提出客观和主观的细化评估方法，归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。

Jun, 2023

在图上评估大型语言模型：性能洞见与比较分析

对四个大型语言模型在图数据分析问题上的能力进行评估，结果表明：1）大型语言模型能够有效地理解自然语言的图数据并进行图拓扑推理；2）GPT模型能够生成逻辑和连贯的结果，在正确性方面优于其他替代方法；3）所有研究中的大型语言模型在结构推理方面面临挑战，零-shot推理和少-shot提示等技术效果减弱；4）在多答案任务中，GPT模型常常产生错误答案，引发对可靠性的担忧；5）GPT模型在输出上表现出较高的自信度，可能影响其纠正错误的能力。值得注意的是，GPT-4显示了纠正GPT-3.5-turbo和其它版本回答的能力。

Aug, 2023

GPT-Fathom：基于大型语言模型的基准测试，揭示通向GPT-4及其后续版本的进化路径

通过对10+个主要大型语言模型进行系统评估，并使用GPT-Fathom开源工具中的20+个基准测试，本研究为提高先进的大型语言模型的透明度提供了有价值的见解。

Sep, 2023

大规模语言模型对于超领域逻辑推理任务的系统评估

大型语言模型在逻辑推理任务中的泛化性和鲁棒性评估及改善的研究。

Oct, 2023

GPT-3家族大型语言模型综述，包括ChatGPT和GPT-4

这篇综述论文总结了关于GPT-3家族大型语言模型的最近研究进展，并指导研究社区未来发展方向。

Oct, 2023

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行“推理”吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

多阶段逻辑推理能力评估的目标：Multi-LogiEval

为了评估大型语言模型在人类式的多步逻辑推理方面的能力，我们提出了一种综合评估数据集Multi-LogiEval，该数据集囊括了多步逻辑推理、各种推理规则和深度，并覆盖了命题逻辑、一阶逻辑和非单调逻辑等三种逻辑类型。实验结果表明，随着推理步骤/深度的增加，语言模型的性能显著下降（在深度为1时平均准确率约为68%，深度为5时约为43%）。我们相信Multi-LogiEval将有助于以后评估和提升大型语言模型的逻辑推理能力。

Jun, 2024