训练进行算术的语言模型预测人类的风险和跨期选择
AI 系统需要理解我们的决策方式以便与人类有效沟通,然而人类的决策并不总是理性的,因此大型语言模型(LLMs)中的人类决策的隐性内部模型必须考虑这一点。先前的实证证据似乎表明这些隐性模型是准确的,LLMs 在日常互动中呈现出了人类行为的可信代理。然而,通过将 LLM 的行为和预测与大量人类决策的数据集进行比较,我们发现情况实际上并非如此:在模拟和预测人类选择时,一套尖端的 LLMs(GPT-4o 和 4-Turbo,Llama-3-8B 和 70B,Claude 3 Opus)假设人们比实际更理性。具体而言,这些模型偏离了人类行为,更接近于经典的理性选择模型 - 预期值理论。有趣的是,人们在解释他人行为时也倾向于假设他人是理性的。因此,当我们使用另一个心理学数据集比较 LLMs 和人类从他人决策中得出的推理时,我们发现这些推理之间高度相关。因此,LLMs 的隐性决策模型似乎与人类预期他人会理性行事的期望相一致,而不是与人们实际行动相一致。
Jun, 2024
运用大型语言模型(LLMs)作为认知模型的兴趣日益增加,本研究通过研究 LLMs 在解决算术问题时与儿童的认知偏差,得出结论:LLMs 在文本理解和解决方案规划步骤中表现出类似人类的偏差,但在解决方案执行过程中没有类似的偏差。
Jan, 2024
通过对大型语言模型(LLM)和人类的推理进行比较,本研究使用传统的认知心理学工具调查和比较它们的表现,结果显示大部分模型呈现了类似于人类具有错误倾向、启发式推理的推理错误,然而,深入比较发现最近的 LLM 版本在与人类推理的区别方面存在重要差异且模型的局限性在新版 LLM 中几乎完全消失,此外,我们还表明,虽然有可能设计策略以提高模型的性能,但人类和机器对相同的提示方案的响应并不相同,最后我们讨论了比较人类和机器行为在人工智能和认知心理学领域中的认识论意义和挑战。
Sep, 2023
利用大型语言模型生成合成的人类示范,然后通过模仿学习学习非理性主体策略,以此来模拟人类特征性的非理性行为,通过实验评估了该框架的模拟非理性行为的能力,并得出结论和讨论框架的潜在收益、挑战和限制。
Feb, 2024
本研究通过使用心理学方法,展示了大型语言模型(LLMs),尤其是 GPT-3,表现出类似于人类直觉的行为和认知错误,而具有更高认知能力的 LLMs,特别是 ChatGPT 和 GPT-4,学会避免这些错误,并表现出超理性的方式;此外,我们还探究了直觉决策倾向的稳定程度。
Jun, 2023
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现 LLMs 不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
大型语言模型(LLM)在文本理解和逻辑推理方面表现出了非凡的能力,在多个认知任务中实现或甚至超过了人类水平的表现。本文提出了一种新的方法,通过将 LLM 表示与人类认知信号进行桥接,评估 LLM 在模拟认知语言处理方面的有效性。我们采用了表示相似性分析(RSA)来衡量 16 个主流 LLM 与脑部 fMRI 信号之间的对齐程度。实证研究调查了多种因素(如模型扩展、对齐训练、指令附加)对 LLM - 脑信号对齐的影响。实验结果表明,模型扩展与 LLM - 脑信号相似性呈正相关,对齐训练可以显著提高 LLM - 脑信号相似性。此外,广泛的 LLM 评估(如 MMLU,Chatbot Arena)的性能与 LLM - 脑信号相似性高度相关。
Feb, 2024