ChatGPT 能够进行解释性推理吗？作为归纳推理的基准测试

Apr, 2024

ChatGPT 能够进行解释性推理吗？作为归纳推理的基准测试

Can ChatGPT Make Explanatory Inferences? Benchmarks for Abductive Reasoning

Paul Thagard

TL;DR这篇论文提出了一套用于评估 AI 程序进行解释性推理能力的基准，使用这些基准来确定目前领先的生成式 AI 模型 ChatGPT 在进行解释性推理方面的能力。基准测试结果表明，ChatGPT 在多个领域中能够进行创造性的推理和评估推理，尽管其仅限于语言和视觉模式。论文否定了 ChatGPT 和类似模型在解释、理解、因果推理、意义和创造力等方面无能的观点。

Abstract

explanatory inference is the creation and evaluation of hypotheses that provide explanations, and is sometimes known as abduction or abductive inference. generative ai is a new set of artificial intelligence mode

explanatory inference generative ai benchmarks chatgpt explanation

发现论文，激发创造

基于贝叶斯的 ChatGPT 人工智能大脑

本研究旨在探究 ChatGPT 在贝叶斯推理中的数学问题解决能力。研究灵感源自 2006 年 Zhu 和 Gigerenzer 的研究，提出了一个问题：儿童能以贝叶斯方式进行推理吗？通过一组 10 个贝叶斯推理问题的实验，结果揭示了儿童有效运用贝叶斯原理进行推理的能力取决于信息的良好结构化表示。本文将同样的一组 10 个贝叶斯推理问题提供给 ChatGPT，结果显示 ChatGPT 能够给出所有问题的正确解答。

Aug, 2023

ChatGPT 是否可用于生成科学假设？

本研究探讨了大型语言模型是否能够进行创造性假设生成，并提出未来科学研究将可能与自动化实验和对抗式同行评审相结合的一种新型 “假设机器” 协同工作模式。

Mar, 2023

ChatGPT 是否是一个良好的因果推理器？综合评估

本文对 ChatGPT 的因果推理能力进行了全面评估。实验结果表明，ChatGPT 在因果推理方面存在严重的幻觉，主要由于自然语言中因果关系和非因果关系之间的汇报偏差以及 ChatGPT 的升级过程。此外，在提示中使用的表达因果概念的单词对 ChatGPT 的因果推理能力产生重要影响，针对性较强的提示表现更好。ChatGPT 主要擅长捕捉显式的因果关系，对隐式的因果关系处理能力相对较差，对句子中事件密度较低和事件之间词汇距离较小的情况处理效果较好。

May, 2023

人工智能通用性的一个标准：基于 ChatGPT 的假设 - 演绎推理测试

我们论证了，作为一台 “思考机器” 或 AGI 的先进 AI（如 GPT-4）应该掌握的关键推理技能是假定 - 推理。我们提出了对这两种推理类型的简单测试，并将其应用于 ChatGPT。我们的研究表明，目前，这个聊天机器人在考虑到稍微复杂一些的问题时，对于这两种推理类型的能力有限。然而，我们认为，如果一台 AI 能够在足够广泛的情境中运用这种类型的推理，那么它将是一台 AGI。

Aug, 2023

ChatGPT 还是人？检测与说明。解释机器学习模型检测短 ChatGPT 生成文本的决策

本文研究了机器学习模型在准确区分 ChatGPT 生成文本与人类生成文本时是否能够有效训练，使用可解释的人工智能框架来对模型进行了解释，研究发现采用 ChatGPT 重新短语生成能够使模型识别 ChatGPT 生成文本与人类生成文本之间的差异更具挑战性。

Jan, 2023

ChatGPT 在声明验证背景下的推理能力评估

我们提出了一个基于逻辑推理的框架，用于将宣称或传言与证据分解为验证所需的原子推理步骤，并通过维基百科的合成数据集和在 Twitter 上流传的谣言的真实数据集对 GPT-3.5-Turbo 和 GPT-4（以下简称 ChatGPT）的推理能力进行评估，结果显示 ChatGPT 在因果推理方面存在困难，但通过使用手动 Chain of Thought（CoT）而不是 Zero Shot（ZS）和 ZS CoT 方法可以在一定程度上缓解这一问题。我们的研究为 ChatGPT 的推理过程不太可能与人类类似的推理过程相一致，并且指出 LLMs 需要在高风险的实际任务（如宣称验证）中进行更严格的评估，以区分炒作和实际能力。

Feb, 2024

评估 ChatGPT 和 GPT-4 的逻辑推理能力

本研究评估了 GPT-4 在逻辑推断任务中的性能，包括多项逻辑推断数据集的测试以及构建一个逻辑推理离散数据集进行实验。结论显示，尽管 GPT-4 表现优异，但逻辑推理对 ChatGPT 和 GPT-4 来说仍然是一项挑战。

Apr, 2023

GPT-4 语言模型的诱因推理：刑侦、医疗实践和科学研究的案例研究

本研究评估了 GPT-4 大型语言模型在医学诊断、犯罪学和宇宙学等复杂领域中的推理能力。通过交互式面试形式，该 AI 助手展示了在生成和选择假设方面的可靠性。它基于病人数据推测出可行的医学诊断，并在犯罪学和宇宙学领域提供了潜在的原因和解释。研究结果突出了 LLM 在复杂问题解决方面的潜力，并强调了进一步研究以最大化它们实际应用的必要性。

Jul, 2023

聊天 GPT 和新学术现实：AI 撰写的研究论文及大型语言模型在学术出版中的伦理道德

本文讨论 OpenAIs ChatGPT，一种用于文本型用户请求（即聊天机器人）的生成式预训练转换器。讨论了 ChatGPT 及类似模型背后的历史和原则，以及其对学术界和学术研究出版的潜在影响。ChatGPT 被认为是自动准备论文和其他类型学术手稿的潜在模型。此外，还讨论了可能出现的潜在伦理问题，并将其置于人工智能、机器学习和自然语言处理的更广泛进展的背景之下。

Mar, 2023

ChatGPT 在神经病理性疼痛诊断中的因果探索表现

探究 ChatGPT 对因果发现问题的回答能力，使用医学基准（Tu et al. 2019）进行测试，并发现其在自然语言交互方面的卓越能力。

Jan, 2023