ChatGPT 是否是一个良好的因果推理器？综合评估

May, 2023

ChatGPT 是否是一个良好的因果推理器？综合评估

Is ChatGPT a Good Causal Reasoner? A Comprehensive Evaluation

Jinglong Gao, Xiao Ding, Bing Qin, Ting Liu

TL;DR本文对 ChatGPT 的因果推理能力进行了全面评估。实验结果表明，ChatGPT 在因果推理方面存在严重的幻觉，主要由于自然语言中因果关系和非因果关系之间的汇报偏差以及 ChatGPT 的升级过程。此外，在提示中使用的表达因果概念的单词对 ChatGPT 的因果推理能力产生重要影响，针对性较强的提示表现更好。ChatGPT 主要擅长捕捉显式的因果关系，对隐式的因果关系处理能力相对较差，对句子中事件密度较低和事件之间词汇距离较小的情况处理效果较好。

Abstract

causal reasoning ability is crucial for numerous nlp applications. Despite the impressive emerging ability of chatgpt in various

chatgpt causal reasoning nlp hallucination explicit causality

发现论文，激发创造

ChatGPT 在声明验证背景下的推理能力评估

我们提出了一个基于逻辑推理的框架，用于将宣称或传言与证据分解为验证所需的原子推理步骤，并通过维基百科的合成数据集和在 Twitter 上流传的谣言的真实数据集对 GPT-3.5-Turbo 和 GPT-4（以下简称 ChatGPT）的推理能力进行评估，结果显示 ChatGPT 在因果推理方面存在困难，但通过使用手动 Chain of Thought（CoT）而不是 Zero Shot（ZS）和 ZS CoT 方法可以在一定程度上缓解这一问题。我们的研究为 ChatGPT 的推理过程不太可能与人类类似的推理过程相一致，并且指出 LLMs 需要在高风险的实际任务（如宣称验证）中进行更严格的评估，以区分炒作和实际能力。

Feb, 2024

聊天式 GPT 与人类读者在推理方面的互补优势：来自英文阅读理解的证据

ChatGPT 与中国高中学生在文本阅读推理能力方面存在互补关系，ChatGPT Plus 在情感和因果推理中表现卓越，而学生在负面情绪和逻辑分析方面具有优势。

Nov, 2023

一个多任务、多语言、多模态的 ChatGPT 推理、幻觉和交互评估

本文提出了一个评估 ChatGPT 等交互式 LLM 的框架，使用公开数据集进行多任务、多语言和多模态方面的评估，发现 ChatGPT 能够生成多模态内容，但是其推理能力较差，存在幻觉问题，但通过 “提示工程” 可以与人类协作，提高性能。

Feb, 2023

ChatGPT 是因果文本挖掘的未来吗？综合评估与分析

通过综合评估 ChatGPT 在因果文本挖掘领域的能力，揭示了其适用性、性能、限制和未来挑战。尽管 ChatGPT 在各种数据集上表现良好，但在具备足够的训练数据和处理复杂因果关系方面，先前的模型仍然优于 ChatGPT，并指出其中存在误识非因果序列和处理复杂因果关系类型方面的挑战。

Feb, 2024

ChatGPT 句子级关系评估：重点关注时间、因果和语篇关系

该研究针对 ChatGPT 大型语言模型，通过对 13 个数据集的测试集进行综合评估，采用了三种任务定制型 prompt 模板，发现 ChatGPT 对于识别因果关系具有较强的能力，但在识别事件之间的时间顺序方面表现较差，并在需要结构性理解对话的对话语篇分析任务中表现不佳。

Apr, 2023

ChatGPT 在神经病理性疼痛诊断中的因果探索表现

探究 ChatGPT 对因果发现问题的回答能力，使用医学基准（Tu et al. 2019）进行测试，并发现其在自然语言交互方面的卓越能力。

Jan, 2023

评估 ChatGPT 和 GPT-4 的逻辑推理能力

本研究评估了 GPT-4 在逻辑推断任务中的性能，包括多项逻辑推断数据集的测试以及构建一个逻辑推理离散数据集进行实验。结论显示，尽管 GPT-4 表现优异，但逻辑推理对 ChatGPT 和 GPT-4 来说仍然是一项挑战。

Apr, 2023

ChatGPT 是否能捍卫真相？自动辩证评估揭示了大语言模型推理中的不足

我们探讨了如何通过进行辩论式的对话来测试大型语言模型（LLM）的推理能力，以此来衡量模型是否真正理解了问题的本质。对多个复杂的推理测试进行实验表明，尽管 ChatGPT 等模型一开始可以生成正确的解决方案，但在面对荒谬的无效论据时，它们无法保持对真理的信仰。

May, 2023

聊天 GPT 在对话中的话语分析潜力：实证研究

本研究探讨了 ChatGPT 在话语语篇分析中的能力，特别是话题分割、话语关系识别和话语分析三个任务的能力。结合创新的思维链（COT）方法，发现 ChatGPT 对于话题分割有较好的表现，但在话语关系识别和话语分析等较难的任务中有待提高。

May, 2023

ChatGPT 能够进行解释性推理吗？作为归纳推理的基准测试

这篇论文提出了一套用于评估 AI 程序进行解释性推理能力的基准，使用这些基准来确定目前领先的生成式 AI 模型 ChatGPT 在进行解释性推理方面的能力。基准测试结果表明，ChatGPT 在多个领域中能够进行创造性的推理和评估推理，尽管其仅限于语言和视觉模式。论文否定了 ChatGPT 和类似模型在解释、理解、因果推理、意义和创造力等方面无能的观点。

Apr, 2024