机器直觉：揭示 GPT-3.5 中类似人类直觉的决策制定

Dec, 2022

机器直觉：揭示 GPT-3.5 中类似人类直觉的决策制定

Machine intuition: Uncovering human-like intuitive decision-making in GPT-3.5

Thilo Hagendorff, Sarah Fabi, Michal Kosinski

TL;DR本研究揭示了大型语言模型 (LLMs) 在某些情况下表现出具有人类直觉的行为，包括许多认知错误，并且通过使用 GPT-3.5 等最新技术的模型及进行人类直觉决策的试探研究证明了这一点，并探究了几种方法来测试 GPT-3.5 的倾向于类似直觉的决策及其机器行为等方面，以揭示出这些模型在认知科学方面的新兴特征和调整预期的潜力。

Abstract

artificial intelligence (AI) technologies revolutionize vast fields of society. Humans using these systems are likely to expect them to work in a potentially hyperrational manner. However, in this study, we show that some AI systems, namely large →

artificial intelligence language models intuition cognitive science machine behavior

发现论文，激发创造

语言模型中出现的类人直觉行为和推理偏见 —— 以及 GPT-4 中的消失

本研究通过使用心理学方法，展示了大型语言模型（LLMs），尤其是 GPT-3，表现出类似于人类直觉的行为和认知错误，而具有更高认知能力的 LLMs，特别是 ChatGPT 和 GPT-4，学会避免这些错误，并表现出超理性的方式；此外，我们还探究了直觉决策倾向的稳定程度。

Jun, 2023

运用认知心理学理解 GPT-3

本文借助认知心理学的工具对最近的大型语言模型 GPT-3 进行了研究评估其在任务决策、信息搜索、思考以及因果推理方面的能力，结果显示 GPT-3 表现出的许多行为令人印象深刻，能够像人类一样解决任务，但也发现了其局限性，如对于因果推理任务失败，这些结果丰富了我们对当前大型语言模型的理解，并为进一步利用认知心理学工具研究越来越能干和难以理解的人工智能代理铺平了道路。

Jun, 2022

在测试语言不常见方面的人工智能性能时，暴露对底层意义的不敏感性

本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现，着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力，暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。

Feb, 2023

评估大型语言模型的性质：对人类中心主义的警告

GPT3.5 的认知能力和人格测量存在较大的变异性，但其所展示的低自尊和与现实脱节的表现可能与人类的良好心理健康状态相悖。

Sep, 2023

大型语言模型是否表现出类似于人类的决策启发式？以 GPT-3.5 为例的案例研究

研究人员使用一系列新颖的提示来测试 ChatGPT 中是否显示出启发式方法、偏见和其他决策效应等现象，并发现 ChatGPT 在这些效应中表现出与人类相似的行为。

May, 2023

大型语言模型展示对新颖文学隐喻的演绎能力

通过评估 GPT-4，一个尖端的大型语言模型，在解释塞尔维亚诗歌中提取的新颖文学隐喻时所提供的自然语言解释能力，它未展现出之前接触过这些隐喻的迹象，但提供了详细而深刻的解释，被盲审的人员（不知道涉及 AI 模型的事实）将 GPT-4 生成的隐喻解释评为优于来自一组大学生的解释，这些结果表明 GPT-4 等大语言模型已经获得了解释复杂新颖隐喻的新兴能力。

Aug, 2023

大型语言模型在高估重要性方面存在偏见

近期，大型语言模型（LLMs），如 GPT-4，在自然语言处理方面取得了显著进展并接近人工通用智能。然而，本研究对 GPT-4 和其他 LLMs 进行评估，评估了它们在判断平凡、动机和伪深的陈述的能力。我们发现，无论是什么类型的陈述和提示技术，LLMs 与人类之间存在显著的陈述一致性。然而，LLMs 系统地高估了无意义陈述的深度，除了 Tk-instruct 外，它是唯一低估陈述深度的模型。只有少量训练样本的提示将 LLMs 的评分接近人类，而非思维链式的提示将 LLMs 的评分远离人类。此外，本研究揭示了强化学习来自人类反馈所引发的潜在偏见，即高估陈述的深度。

Oct, 2023

LLM 认知判断与人类不同

GPT-3 和 ChatGPT 在认知科学文献中对有限数据归纳推理任务的能力被调查，结果表明这些模型的认知判断并非类似于人类。

Jul, 2023

Clever Hans 或神经心理理论？在大型语言模型中进行社交推理的应力测试

我们通过在 6 个任务上进行广泛的评估，发现虽然 LLM 表现出某些神经理论社交认知能力，但这种行为远非稳健。我们进一步研究影响 N-ToM 任务表现的因素，并发现 LLM 难以应对对抗性例子，这表明它们依赖于浅层启发式算法，而非稳健的 ToM 能力。我们警告不要从个别例子、有限的基准测试和使用人设计的心理测试来评估模型。

May, 2023

人工通用智能的火花：GPT-4 的早期实验

本文报道了 OpenAI 发展的最新模型 GPT-4，证明其不仅能够掌握语言，而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务，表现接近于甚至超过人类的水平，代表了一种新的群体智能的语言模型，并可能被视为人工通用智能（AGI）系统的早期、但尚不完整的版本。同时，本文还探讨了 GPT-4 的局限性，指出其可能需要超越下一个预测的新范式，为实现更深入和全面的 AGI 版本的发展面临的挑战，以及该技术飞跃的社会影响和未来研究方向的反思。

Mar, 2023