量化 AI 心理学:大型语言模型的心理测量基准
该研究探索了 AI 性格或 AInality 的概念,表明大型语言模型(LLMs)呈现出与人类个性类似的模式。通过使用人类中心的心理测量测试,如迈尔斯 - 布里格斯类型指标(MBTI)、大五人格测试(BFI)和短暗黑三博士(SD3),我们确认了 LLM 的个性类型,并通过引入角色扮演提示,展示了 LLMs 的适应性,显示了它们在不同个性类型之间动态切换的能力。使用项目性测试,如华盛顿大学句子完成测试(WUSCT),我们揭示了 LLMs 个性的隐藏方面,这些方面通过直接提问很难获取。项目测试允许对 LLMs 的认知过程和思维模式进行深入探索,并为 AInality 提供了多方面的视角。我们的机器学习分析发现,LLMs 表现出明显的 AInality 特征和多样化的个性类型,展示了对外部指令的动态变化。该研究开创了在 LLMs 上应用项目性测试的先例,揭示了它们多样而适应性的 AInality 特征。
Dec, 2023
研究论文介绍机器心理学作为一种新的研究领域,通过不同的心理学子领域设计行为测试以深入评估和分析大型语言模型的能力和特点,特别是关注快速设计的政策,并且描述如何解释发现在 LLMs 中的行为模式以发现传统自然语言处理基准无法检测到的新的能力
Mar, 2023
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对 23 个最先进的 LLM 基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。
Feb, 2024
本文探索大型语言模型在心理学应用中的前沿。大型语言模型如 ChatGPT 正在改变心理学研究的方式,并在认知与行为心理学、临床与咨询心理学、教育与发展心理学以及社会与文化心理学等多个领域发挥着影响,强调了它们模拟人类认知和行为的潜力。该论文还讨论了这些模型在心理学方面的能力,提供了创新工具用于文献综述、假设生成、实验设计、实验对象选择、数据分析、学术写作和同行评审。然而,尽管大型语言模型对推进心理学研究方法至关重要,但该论文也注意到了其技术和伦理挑战,如数据隐私、在心理学研究中使用大型语言模型的伦理影响以及对这些模型局限性的更深入了解的需要。研究人员应该负责任地在心理学研究中使用大型语言模型,遵守伦理标准,并考虑在敏感领域部署这些技术的潜在后果。总之,这篇文章全面概述了大型语言模型在心理学中的现状,探讨了潜在的好处和挑战。它号召研究人员在充分利用这些模型的优势的同时,负责任地解决相关风险。
Jan, 2024
该研究使用心理测量学的方法,对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现,使用普通人物描述时,GPT-4 的回答表现出与人类相似的心理特点,而使用具体人口统计信息的情况下,两个模型的回答则表现较差,此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。
May, 2024
该研究提出了一个评估 LLMs 不同心理方面的框架 PsychoBench,其中包括了四个明确分类的部分:人格特征、人际关系、动机测试和情绪能力。研究使用了五个常用模型进行测试,并采用了越狱方法绕过安全对齐协议,测试了 LLMs 的内在特性。
Oct, 2023
借鉴心理测量学的知识,提出了一种新的基于心理测量的大型(多模态)语言模型(LLMs)评测框架 - PATCH。通过使用该框架,测量了 GPT-4 和 Gemini-Pro-Vision 在 8 年级数学中的熟练程度,并且与 56 个人口进行了比较。同时发布了四个数据集,用于评估和比较 LLM 在中小学数学和科学方面的熟练程度与人口的水平。
Apr, 2024
该研究探讨了如何对大型语言模型进行人格测试,并提出了使用自我评估测试的不足之处,主要体现在测试结果不可靠,无法客观准确地测量机器的人格特点,原因是存在内在的偏见和不一致性。因此,需要开发更科学的方法来对大型语言模型的人格特点进行准确可靠的评估。
May, 2023
本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性,并讨论了如何对这些模型进行塑造的潜在应用和伦理影响,特别是关于负责任地使用 LLM。
Jul, 2023
本文旨在探究利用人格评估工具 MBTI 对大型语言模型进行评估的可行性,并通过广泛实验探索不同模型的人格类型、通过提示工程改变人格类型的可能性以及训练数据集对模型人格的影响。尽管 MBTI 不是一个严谨的评估工具,但它仍然能够反映 LLMs 与人类人格之间的相似程度,并有潜力作为一个粗略的指标。
Jul, 2023