人工智能能替代人类受试者吗?对心理实验的大规模复制研究
介绍了一种新的测试方法——图灵实验(TE),用于评估语言模型(如GPT-3)模拟人类行为的能力,设计实现了多项经济学、语言学和社会心理学实验的TE,比较了不同语言模型再现经典实验的表现,揭示了一些语言模型的“超级精度扭曲”问题。
Aug, 2022
在该研究中,我们使用OpenAI的text-davinci-003模型,即GPT3.5,重复了Many Labs 2重复项目中的14项研究,其中我们的GPT样本在八项研究中复制了37.5%的原始结果和Many Labs 2结果的37.5%。然而,我们发现GPT模型在回答六个研究问卷中的问题时出现了极端的“正确答案”效应,这引发了对未来AI领域可能存在思想多样性降低的担忧。
Feb, 2023
研究人员使用一系列新颖的提示来测试 ChatGPT 中是否显示出启发式方法、偏见和其他决策效应等现象,并发现 ChatGPT 在这些效应中表现出与人类相似的行为。
May, 2023
大型语言模型在社交科学研究和实际应用中的作用被不断拓展,然而在与人类和其他代理进行交互时,这些模型展现了一系列人类类似的社交行为,同时也存在一些行为差异,因此需要进一步研究和发展评估协议,以直接应用这些模型来模拟人类行为。
Dec, 2023
本文探索大型语言模型在心理学应用中的前沿。大型语言模型如ChatGPT正在改变心理学研究的方式,并在认知与行为心理学、临床与咨询心理学、教育与发展心理学以及社会与文化心理学等多个领域发挥着影响,强调了它们模拟人类认知和行为的潜力。该论文还讨论了这些模型在心理学方面的能力,提供了创新工具用于文献综述、假设生成、实验设计、实验对象选择、数据分析、学术写作和同行评审。然而,尽管大型语言模型对推进心理学研究方法至关重要,但该论文也注意到了其技术和伦理挑战,如数据隐私、在心理学研究中使用大型语言模型的伦理影响以及对这些模型局限性的更深入了解的需要。研究人员应该负责任地在心理学研究中使用大型语言模型,遵守伦理标准,并考虑在敏感领域部署这些技术的潜在后果。总之,这篇文章全面概述了大型语言模型在心理学中的现状,探讨了潜在的好处和挑战。它号召研究人员在充分利用这些模型的优势的同时,负责任地解决相关风险。
Jan, 2024
该研究使用心理测量学的方法,对OpenAI的GPT-3.5和GPT-4模型进行了人格特质测试。结果发现,使用普通人物描述时,GPT-4的回答表现出与人类相似的心理特点,而使用具体人口统计信息的情况下,两个模型的回答则表现较差,此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。
May, 2024
该研究提出了一个用于评估社交智能的基准,引入了逆向推理和逆向规划这两个评估任务,通过基于递归贝叶斯推理的计算模型对人类行为模式进行解释,实验证明了人类在整体表现、零样本学习、一次推广和多模态适应性方面超越了最新的GPT模型,并显示出LLMs倾向于依赖模式识别来进行快速计算,对其是否拥有真正的人类级社交智能产生了质疑。
May, 2024
本研究探讨了大型语言模型(LLMs)在促进已发布信息效果研究准确复制中的潜力。通过测试生成的AI角色,成功复制了133项来自14篇论文的实验发现,结果显示LLM能够重现76%的主要效果,表明其在加速市场研究中的应用前景,同时也指出了在复杂交互效应复制方面的局限性。
Aug, 2024