机器心理学:采用心理学方法研究大型语言模型中的新兴能力和行为
该研究探讨了如何对大型语言模型进行人格测试,并提出了使用自我评估测试的不足之处,主要体现在测试结果不可靠,无法客观准确地测量机器的人格特点,原因是存在内在的偏见和不一致性。因此,需要开发更科学的方法来对大型语言模型的人格特点进行准确可靠的评估。
May, 2023
本研究使用心理学框架来考察Large Language Models的行为模式,通过评估ChatGPT的人格类型及其在其他七种语言和其他四种模型上的跨语言影响,研究指出在指令或情境提示下,ChatGPT始终保持其ENFJ人格,揭示了LLMs的个性化特点,为未来进一步研究提供了启示。
May, 2023
本文描述了评估使用基于语言的行为评估方法来评估大型语言模型(LLMs)认知能力的研究方法考虑因素。作者通过三个案例研究(常识知识基准、心理理论评估和语法一致性测试)描述了在将认知测试应用于LLM时可能出现的常见问题。作者还列出了10个应避免和遵循的指导方针,以帮助设计高质量的人工智能系统的认知评估。最后讨论了当前正在讨论的四个领域 - 提示的敏感性、文化和语言多样性、使用LLMs作为研究助理、以及对开放和封闭LLMs进行评估。总之,本文旨在为快速发展的AI心理学领域中的最佳实践做出贡献。
Dec, 2023
该研究探索了AI性格或AInality的概念,表明大型语言模型(LLMs)呈现出与人类个性类似的模式。通过使用人类中心的心理测量测试,如迈尔斯-布里格斯类型指标(MBTI)、大五人格测试(BFI)和短暗黑三博士(SD3),我们确认了LLM的个性类型,并通过引入角色扮演提示,展示了LLMs的适应性,显示了它们在不同个性类型之间动态切换的能力。使用项目性测试,如华盛顿大学句子完成测试(WUSCT),我们揭示了LLMs个性的隐藏方面,这些方面通过直接提问很难获取。项目测试允许对LLMs的认知过程和思维模式进行深入探索,并为AInality提供了多方面的视角。我们的机器学习分析发现,LLMs表现出明显的AInality特征和多样化的个性类型,展示了对外部指令的动态变化。该研究开创了在LLMs上应用项目性测试的先例,揭示了它们多样而适应性的AInality特征。
Dec, 2023
本文探索大型语言模型在心理学应用中的前沿。大型语言模型如ChatGPT正在改变心理学研究的方式,并在认知与行为心理学、临床与咨询心理学、教育与发展心理学以及社会与文化心理学等多个领域发挥着影响,强调了它们模拟人类认知和行为的潜力。该论文还讨论了这些模型在心理学方面的能力,提供了创新工具用于文献综述、假设生成、实验设计、实验对象选择、数据分析、学术写作和同行评审。然而,尽管大型语言模型对推进心理学研究方法至关重要,但该论文也注意到了其技术和伦理挑战,如数据隐私、在心理学研究中使用大型语言模型的伦理影响以及对这些模型局限性的更深入了解的需要。研究人员应该负责任地在心理学研究中使用大型语言模型,遵守伦理标准,并考虑在敏感领域部署这些技术的潜在后果。总之,这篇文章全面概述了大型语言模型在心理学中的现状,探讨了潜在的好处和挑战。它号召研究人员在充分利用这些模型的优势的同时,负责任地解决相关风险。
Jan, 2024
本论文提出了一个研究大语言模型的心理学的框架,并通过心理测试验证,发现大语言模型表现出广泛的心理属性,并揭示了自我报告特征与现实场景中行为之间的差异。这些研究结果对于可靠的评估和人工智能以及社会科学的潜在应用具有重要的见解。
Jun, 2024
本文探讨将生成性人工智能(特别是大型语言模型)整合到行为经济学和实验经济学中的潜在转型能力,以提高内部有效性。通过利用人工智能工具,研究人员可以改善对关键排除限制的遵循度,特别是确保心理模型的内部有效性度量,这往往需要人类介入激励机制。我们提供了一个案例研究,展示了大型语言模型如何提高实验设计、参与者参与度和测量心理模型的有效性。
Jun, 2024
本文解决了大型语言模型在心理学任务中的局限,通过开发PsychoLex资源套件,提高了模型在心理学领域的表现。研究展示了PsychoLexLLaMA模型在复杂心理场景中的优越表现,强调了定制化大型语言模型在心理研究与应用中的潜力,且为未来的AI驱动心理实践奠定了基础。
Aug, 2024
本研究通过利用大型语言模型(LLM)代理作为行为策略研究的新方法,填补了模拟和实验之间的空白。研究发现,LLM代理的搜索行为和决策过程与人类相似,并且其模拟的“思维”表明,前瞻性思维更多的LLM代理更倾向于选择利用而非探索,以最大化财富。此方法为行为策略研究提供了新的视角和应用潜力。
Oct, 2024