达芬奇的二元论:大型语言模型与人类学习者中的心灵-身体之分
通过评估大量语言暴露对理解心灵理论的影响,发现语言的统计学学习能够部分解释人类认知发展中心灵理论的发展,但是其他机制也起到重要作用,因为最先进的语言模型GPT-3尽管暴露于更多的语言环境下,但其表现并不能完全解释人类的行为
Sep, 2022
本文探讨使用认知心理学方法估计和比较人类和 GPT-3 的概念表征结构,结果表明语义结构的估计在人类之间保持一致,而在 GPT-3 中则取决于所使用的任务。
Apr, 2023
大型语言模型展现出与人类理论心智联系紧密的特征,与人脑大脑网络中的神经元相似,通过类似方法检验了嵌入在语言模型中的人工神经元对他人信念的代表能力,揭示了模型与人脑神经元之间的相似之处。
Sep, 2023
通过一系列的实验,我们评估了当前基于视觉的大型语言模型在直觉物理、因果推理和直观心理领域的表现。我们的研究结果表明,尽管这些模型在处理和解释视觉数据方面表现出显著的能力,但在这些领域仍然不如人类。这些模型对物理定律和因果关系有基本的理解,但缺乏更深入的洞察力-人类认知的一个关键方面。此外,在需要直觉心理理论的任务中,这些模型完全失败。我们的结果强调了将更强大的理解因果关系、物理动力学和社会认知机制整合到现代基于视觉的语言模型中的必要性,并指出了认知启发式评估标准的重要性。
Nov, 2023
研究分析了大型语言模型 (LLMs) 是否已经具有更高阶的心智理论 (ToM) 社会心智能力,通过引入多阶心智问答手写测试集并将其用于与新收集的成年人基准进行比较,我们发现 GPT-4 和 Flan-PaLM 在总体上达到了成年水平或接近成年水平的 ToM 任务表现,并且 GPT-4 在第六阶推理上超过了成年人的表现。研究结果表明,模型规模和微调在实现 ToM 能力方面存在相互作用,而表现最佳的 LLMs 已经发展出了一种普适的 ToM 能力。鉴于高阶 ToM 在广泛的人类合作和竞争行为中发挥的角色,这些发现对于面向用户的 LLM 应用具有重要意义。
May, 2024
通过评估大型语言模型(LLMs)在感知推理和感知-信念推理等人类心智理论先驱方面的能力,我们扩展了对LLMs的心智理论能力的理解,并引入了两个数据集,Percept-ToMi和Percept-FANToM,以评估LLMs对感知、推理和信念的能力。实验证明,PercepToM可以显著提高LLM的性能,尤其是在虚假信念场景中。
Jul, 2024
这篇论文探讨了大型语言模型(LLMs)如ChatGPT是否具有思维,特别关注它们是否拥有包括信念、欲望和意图在内的真实民间心理。我们通过调查内部表征和行为倾向这两个关键方面来探讨这个问题。首先,我们调查了各种哲学理论,包括信息论、因果论、结构论和目的论账户,认为LLMs满足每个账户提出的关键条件。我们利用机器学习中的最新可解释性研究来支持这些主张。其次,我们探讨LLMs是否展示了执行行为的坚实倾向,这是民间心理的一个必要组成部分。我们考虑了两个著名的哲学传统,即解释主义和表征主义,以评估LLM的行为倾向。虽然我们发现有证据表明LLMs在某些标准下可能具备思维的特征,特别是在博弈论环境中,但我们得出的结论是,数据仍然不具有说服力。此外,我们回答了对LLM民间心理的几个怀疑挑战,包括感知基础、“随机鹦鹉”论证以及对记忆的担忧等。我们的论文有三个主要观点。第一,LLMs确实具有坚实的内部表征。第二,是否LLMs具有坚实的行为倾向还有一个未解答的问题。第三,对LLM表征的现有怀疑挑战在哲学上经不起推敲。
Jun, 2024
本研究探讨了大型语言模型(LLMs)在理解人类认知和语言习得争论中的角色,指出人类和LLMs都不是通用学习者。文章提出LLMs通过双重优化过程提升性能,即通过训练优化以及类似自然选择的方式进行选择,强调LLMs的表现不能轻易对人类认知偏见在语言中的重要性进行评估。
Aug, 2024
本研究探讨了大型语言模型(LLM)在理解人类认知和语言习得辩论中的作用。作者提出,LLM并非一般学习者,而是经过训练和类似于自然选择的双重优化过程,揭示了LLM性能与人类认知偏见在语言习得中的重要性并不直接相关。此发现为语言习得的理论提供了新的视角和深远影响。
Aug, 2024