人工智能能替代人类受试者吗？对心理实验的大规模复制研究

Aug, 2024

人工智能能替代人类受试者吗？对心理实验的大规模复制研究

Can AI Replace Human Subjects? A Large-Scale Replication of Psychological Experiments with LLMs

Ziyan Cui, Ning Li, Huaikang Zhou

TL;DR本研究针对人工智能在社会科学研究中的应用，探讨大型语言模型（LLMs）如GPT-4在心理实验中是否能有效替代人类受试者。通过复制154个心理实验，发现GPT-4在主效应的复现率为76%但在交互效应中仅为47%，显示出其潜力与局限性，提醒研究者在解读AI驱动的结果时需保持谨慎。

Abstract

Artificial Intelligence (AI) is increasingly being integrated into scientific research, particularly in the social sciences, where understanding human behavior is critical. Large Language Models (LLMs) like GPT-4

发现论文，激发创造

使用大型语言模型模拟多人并复制人类受试研究

介绍了一种新的测试方法——图灵实验（TE），用于评估语言模型（如GPT-3）模拟人类行为的能力，设计实现了多项经济学、语言学和社会心理学实验的TE，比较了不同语言模型再现经典实验的表现，揭示了一些语言模型的“超级精度扭曲”问题。

Aug, 2022

人工智能心理学的“正确答案

在该研究中，我们使用OpenAI的text-davinci-003模型，即GPT3.5，重复了Many Labs 2重复项目中的14项研究，其中我们的GPT样本在八项研究中复制了37.5％的原始结果和Many Labs 2结果的37.5％。然而，我们发现GPT模型在回答六个研究问卷中的问题时出现了极端的“正确答案”效应，这引发了对未来AI领域可能存在思想多样性降低的担忧。

Feb, 2023

大型语言模型是否表现出类似于人类的决策启发式？以GPT-3.5为例的案例研究

研究人员使用一系列新颖的提示来测试 ChatGPT 中是否显示出启发式方法、偏见和其他决策效应等现象，并发现 ChatGPT 在这些效应中表现出与人类相似的行为。

May, 2023

评估大型语言模型的性质：对人类中心主义的警告

GPT3.5的认知能力和人格测量存在较大的变异性，但其所展示的低自尊和与现实脱节的表现可能与人类的良好心理健康状态相悖。

Sep, 2023

LLM是否表现出类似于人类的回答偏向？一项调查设计案例研究

大型语言模型在代表人类进行主观标签任务方面的潜力和限制

Nov, 2023

LLM代理人是否表现出社会行为？

大型语言模型在社交科学研究和实际应用中的作用被不断拓展，然而在与人类和其他代理进行交互时，这些模型展现了一系列人类类似的社交行为，同时也存在一些行为差异，因此需要进一步研究和发展评估协议，以直接应用这些模型来模拟人类行为。

Dec, 2023

探索LLM在心理应用领域的前沿：综述

本文探索大型语言模型在心理学应用中的前沿。大型语言模型如ChatGPT正在改变心理学研究的方式，并在认知与行为心理学、临床与咨询心理学、教育与发展心理学以及社会与文化心理学等多个领域发挥着影响，强调了它们模拟人类认知和行为的潜力。该论文还讨论了这些模型在心理学方面的能力，提供了创新工具用于文献综述、假设生成、实验设计、实验对象选择、数据分析、学术写作和同行评审。然而，尽管大型语言模型对推进心理学研究方法至关重要，但该论文也注意到了其技术和伦理挑战，如数据隐私、在心理学研究中使用大型语言模型的伦理影响以及对这些模型局限性的更深入了解的需要。研究人员应该负责任地在心理学研究中使用大型语言模型，遵守伦理标准，并考虑在敏感领域部署这些技术的潜在后果。总之，这篇文章全面概述了大型语言模型在心理学中的现状，探讨了潜在的好处和挑战。它号召研究人员在充分利用这些模型的优势的同时，负责任地解决相关风险。

Jan, 2024

LLM模型模拟人类心理行为的有限能力：心理测量分析

该研究使用心理测量学的方法，对OpenAI的GPT-3.5和GPT-4模型进行了人格特质测试。结果发现，使用普通人物描述时，GPT-4的回答表现出与人类相似的心理特点，而使用具体人口统计信息的情况下，两个模型的回答则表现较差，此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。

May, 2024

评估和模拟社会智能：人类与人工智能能力的比较研究

该研究提出了一个用于评估社交智能的基准，引入了逆向推理和逆向规划这两个评估任务，通过基于递归贝叶斯推理的计算模型对人类行为模式进行解释，实验证明了人类在整体表现、零样本学习、一次推广和多模态适应性方面超越了最新的GPT模型，并显示出LLMs倾向于依赖模式识别来进行快速计算，对其是否拥有真正的人类级社交智能产生了质疑。

May, 2024

利用大型语言模型创建人工智能角色以复制和预测媒体效果：对133项已发表实验研究结果的实证测试

本研究探讨了大型语言模型（LLMs）在促进已发布信息效果研究准确复制中的潜力。通过测试生成的AI角色，成功复制了133项来自14篇论文的实验发现，结果显示LLM能够重现76%的主要效果，表明其在加速市场研究中的应用前景，同时也指出了在复杂交互效应复制方面的局限性。

Aug, 2024