ChatGPT 能够进行解释性推理吗?作为归纳推理的基准测试
本研究旨在探究 ChatGPT 在贝叶斯推理中的数学问题解决能力。研究灵感源自 2006 年 Zhu 和 Gigerenzer 的研究,提出了一个问题:儿童能以贝叶斯方式进行推理吗?通过一组 10 个贝叶斯推理问题的实验,结果揭示了儿童有效运用贝叶斯原理进行推理的能力取决于信息的良好结构化表示。本文将同样的一组 10 个贝叶斯推理问题提供给 ChatGPT,结果显示 ChatGPT 能够给出所有问题的正确解答。
Aug, 2023
本研究探讨了大型语言模型是否能够进行创造性假设生成,并提出未来科学研究将可能与自动化实验和对抗式同行评审相结合的一种新型 “假设机器” 协同工作模式。
Mar, 2023
本文对 ChatGPT 的因果推理能力进行了全面评估。实验结果表明,ChatGPT 在因果推理方面存在严重的幻觉,主要由于自然语言中因果关系和非因果关系之间的汇报偏差以及 ChatGPT 的升级过程。此外,在提示中使用的表达因果概念的单词对 ChatGPT 的因果推理能力产生重要影响,针对性较强的提示表现更好。ChatGPT 主要擅长捕捉显式的因果关系,对隐式的因果关系处理能力相对较差,对句子中事件密度较低和事件之间词汇距离较小的情况处理效果较好。
May, 2023
我们论证了,作为一台 “思考机器” 或 AGI 的先进 AI(如 GPT-4)应该掌握的关键推理技能是假定 - 推理。我们提出了对这两种推理类型的简单测试,并将其应用于 ChatGPT。我们的研究表明,目前,这个聊天机器人在考虑到稍微复杂一些的问题时,对于这两种推理类型的能力有限。然而,我们认为,如果一台 AI 能够在足够广泛的情境中运用这种类型的推理,那么它将是一台 AGI。
Aug, 2023
本文研究了机器学习模型在准确区分 ChatGPT 生成文本与人类生成文本时是否能够有效训练,使用可解释的人工智能框架来对模型进行了解释,研究发现采用 ChatGPT 重新短语生成能够使模型识别 ChatGPT 生成文本与人类生成文本之间的差异更具挑战性。
Jan, 2023
我们提出了一个基于逻辑推理的框架,用于将宣称或传言与证据分解为验证所需的原子推理步骤,并通过维基百科的合成数据集和在 Twitter 上流传的谣言的真实数据集对 GPT-3.5-Turbo 和 GPT-4(以下简称 ChatGPT)的推理能力进行评估,结果显示 ChatGPT 在因果推理方面存在困难,但通过使用手动 Chain of Thought(CoT)而不是 Zero Shot(ZS)和 ZS CoT 方法可以在一定程度上缓解这一问题。我们的研究为 ChatGPT 的推理过程不太可能与人类类似的推理过程相一致,并且指出 LLMs 需要在高风险的实际任务(如宣称验证)中进行更严格的评估,以区分炒作和实际能力。
Feb, 2024
本研究评估了 GPT-4 在逻辑推断任务中的性能,包括多项逻辑推断数据集的测试以及构建一个逻辑推理离散数据集进行实验。结论显示,尽管 GPT-4 表现优异,但逻辑推理对 ChatGPT 和 GPT-4 来说仍然是一项挑战。
Apr, 2023
本研究评估了 GPT-4 大型语言模型在医学诊断、犯罪学和宇宙学等复杂领域中的推理能力。通过交互式面试形式,该 AI 助手展示了在生成和选择假设方面的可靠性。它基于病人数据推测出可行的医学诊断,并在犯罪学和宇宙学领域提供了潜在的原因和解释。研究结果突出了 LLM 在复杂问题解决方面的潜力,并强调了进一步研究以最大化它们实际应用的必要性。
Jul, 2023
本文讨论 OpenAIs ChatGPT,一种用于文本型用户请求(即聊天机器人)的生成式预训练转换器。讨论了 ChatGPT 及类似模型背后的历史和原则,以及其对学术界和学术研究出版的潜在影响。ChatGPT 被认为是自动准备论文和其他类型学术手稿的潜在模型。此外,还讨论了可能出现的潜在伦理问题,并将其置于人工智能、机器学习和自然语言处理的更广泛进展的背景之下。
Mar, 2023
探究 ChatGPT 对因果发现问题的回答能力,使用医学基准(Tu et al. 2019)进行测试,并发现其在自然语言交互方面的卓越能力。
Jan, 2023