GLoRE:评估大型语言模型的逻辑推理能力
本文评估了GPT-neo 1.3亿模型在常识推理任务上的表现,发现模型在某些任务上具有竞争力,但当数据集大小显著较小时表现会很差。研究者还使用可视化和推理测试来证实结果,并通过多种方法进行彻底的健壮性测试。
Nov, 2022
本研究评估了 GPT-4 在逻辑推断任务中的性能,包括多项逻辑推断数据集的测试以及构建一个逻辑推理离散数据集进行实验。结论显示,尽管 GPT-4 表现优异,但逻辑推理对 ChatGPT 和 GPT-4 来说仍然是一项挑战。
Apr, 2023
提出了一个开源评估套件链式思维中心,用于评估大型语言模型在多步推理能力方面的性能,并针对一系列有挑战性的应用场景提供基准测试,目前的结果表明,模型规模与推理能力密切相关,需要更多开源社区的努力来构建更好的基础模型和探索RLHF。
May, 2023
本文针对大型语言模型的逻辑推理能力进行全面评估,选择15个经典数据集,评估模型的零点、单点和三点能力,提出客观和主观的细化评估方法,归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。
Jun, 2023
对四个大型语言模型在图数据分析问题上的能力进行评估,结果表明:1)大型语言模型能够有效地理解自然语言的图数据并进行图拓扑推理;2)GPT模型能够生成逻辑和连贯的结果,在正确性方面优于其他替代方法;3)所有研究中的大型语言模型在结构推理方面面临挑战,零-shot推理和少-shot提示等技术效果减弱;4)在多答案任务中,GPT模型常常产生错误答案,引发对可靠性的担忧;5)GPT模型在输出上表现出较高的自信度,可能影响其纠正错误的能力。值得注意的是,GPT-4显示了纠正GPT-3.5-turbo和其它版本回答的能力。
Aug, 2023
通过对10+个主要大型语言模型进行系统评估,并使用GPT-Fathom开源工具中的20+个基准测试,本研究为提高先进的大型语言模型的透明度提供了有价值的见解。
Sep, 2023
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行“推理”吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
为了评估大型语言模型在人类式的多步逻辑推理方面的能力,我们提出了一种综合评估数据集Multi-LogiEval,该数据集囊括了多步逻辑推理、各种推理规则和深度,并覆盖了命题逻辑、一阶逻辑和非单调逻辑等三种逻辑类型。实验结果表明,随着推理步骤/深度的增加,语言模型的性能显著下降(在深度为1时平均准确率约为68%,深度为5时约为43%)。我们相信Multi-LogiEval将有助于以后评估和提升大型语言模型的逻辑推理能力。
Jun, 2024