ChatGPT 在声明验证背景下的推理能力评估

Feb, 2024

ChatGPT 在声明验证背景下的推理能力评估

Assessing the Reasoning Abilities of ChatGPT in the Context of Claim Verification

John Dougrez-Lewis, Mahmud Elahi Akhter, Yulan He, Maria Liakata

TL;DR我们提出了一个基于逻辑推理的框架，用于将宣称或传言与证据分解为验证所需的原子推理步骤，并通过维基百科的合成数据集和在 Twitter 上流传的谣言的真实数据集对 GPT-3.5-Turbo 和 GPT-4（以下简称 ChatGPT）的推理能力进行评估，结果显示 ChatGPT 在因果推理方面存在困难，但通过使用手动 Chain of Thought（CoT）而不是 Zero Shot（ZS）和 ZS CoT 方法可以在一定程度上缓解这一问题。我们的研究为 ChatGPT 的推理过程不太可能与人类类似的推理过程相一致，并且指出 LLMs 需要在高风险的实际任务（如宣称验证）中进行更严格的评估，以区分炒作和实际能力。

Abstract

The reasoning capabilities of llms are currently hotly debated. We examine the issue from the perspective of claim/rumour verification. We

llms claim/rumour verification logical reasoning framework reasoning capabilities claim verification

发现论文，激发创造

ChatGPT 是否能捍卫真相？自动辩证评估揭示了大语言模型推理中的不足

我们探讨了如何通过进行辩论式的对话来测试大型语言模型（LLM）的推理能力，以此来衡量模型是否真正理解了问题的本质。对多个复杂的推理测试进行实验表明，尽管 ChatGPT 等模型一开始可以生成正确的解决方案，但在面对荒谬的无效论据时，它们无法保持对真理的信仰。

May, 2023

评估 ChatGPT 和 GPT-4 的逻辑推理能力

本研究评估了 GPT-4 在逻辑推断任务中的性能，包括多项逻辑推断数据集的测试以及构建一个逻辑推理离散数据集进行实验。结论显示，尽管 GPT-4 表现优异，但逻辑推理对 ChatGPT 和 GPT-4 来说仍然是一项挑战。

Apr, 2023

ChatGPT 是否是一个良好的因果推理器？综合评估

本文对 ChatGPT 的因果推理能力进行了全面评估。实验结果表明，ChatGPT 在因果推理方面存在严重的幻觉，主要由于自然语言中因果关系和非因果关系之间的汇报偏差以及 ChatGPT 的升级过程。此外，在提示中使用的表达因果概念的单词对 ChatGPT 的因果推理能力产生重要影响，针对性较强的提示表现更好。ChatGPT 主要擅长捕捉显式的因果关系，对隐式的因果关系处理能力相对较差，对句子中事件密度较低和事件之间词汇距离较小的情况处理效果较好。

May, 2023

A & B == B & A：在大型语言模型中触发逻辑推理失败

我们引入了 LogicAsker，它是一种自动方法，全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力，并揭示了 LLM 未能学好的逻辑规则。我们评估了 LogicAsker 在 GPT-3、ChatGPT、GPT-4、Bard、Vicuna 和 Guanaco 等主要的大型语言模型上，并展示了 LogicAsker 的测试用例在不同 LLM 中发现逻辑推理错误的比率从 25% 到 94% 不等。此外，LogicAsker 的测试用例可以进一步用于设计上下文学习的演示例子，有效提高 LLM 的逻辑推理能力，如 GPT-4 提高了 10%。据我们所知，我们的工作是首次基于测试结果创建提示来有效提高 LLM 的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。

Jan, 2024

GPT-3.5 与 GPT-4：在零样本学习中评估 ChatGPT 的推理性能

本文对 GPT-3.5 和 GPT-4 进行全面技术评估，发现 GPT-4 在几乎所有测试任务中优于 GPT-3.5，并提出一组改良数据来提高两种模型的零样本学习能力。

May, 2023

评估 ChatGPT 的推理能力

ChatGPT 应用于推理任务时产生的逻辑错误的量化研究，包括逻辑错误的分类和基于大型语言模型产生的推理错误的标注答案。

Oct, 2023

一个多任务、多语言、多模态的 ChatGPT 推理、幻觉和交互评估

本文提出了一个评估 ChatGPT 等交互式 LLM 的框架，使用公开数据集进行多任务、多语言和多模态方面的评估，发现 ChatGPT 能够生成多模态内容，但是其推理能力较差，存在幻觉问题，但通过 “提示工程” 可以与人类协作，提高性能。

Feb, 2023

聊天式 GPT 与人类读者在推理方面的互补优势：来自英文阅读理解的证据

ChatGPT 与中国高中学生在文本阅读推理能力方面存在互补关系，ChatGPT Plus 在情感和因果推理中表现卓越，而学生在负面情绪和逻辑分析方面具有优势。

Nov, 2023

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022