心理学的 LLM 智能体:关于游戏化评估的研究
本论文提出了一个研究大语言模型的心理学的框架,并通过心理测试验证,发现大语言模型表现出广泛的心理属性,并揭示了自我报告特征与现实场景中行为之间的差异。这些研究结果对于可靠的评估和人工智能以及社会科学的潜在应用具有重要的见解。
Jun, 2024
该研究提出了一个评估 LLMs 不同心理方面的框架 PsychoBench,其中包括了四个明确分类的部分:人格特征、人际关系、动机测试和情绪能力。研究使用了五个常用模型进行测试,并采用了越狱方法绕过安全对齐协议,测试了 LLMs 的内在特性。
Oct, 2023
该研究探讨了大型语言模型(LLMs)利用心理测量值,特别是人格信息,在视频游戏角色开发中的潜力。利用情感计算(AC)系统量化非玩家角色(NPC)的心智,LLM 可以利用该系统的信息通过使用这些数值来生成提示。研究表明 LLM 可以持续地代表给定的人格轮廓,从而增强游戏角色的人类特征。通过重新设计人类检查方法,例如国际人格项目库(IPIP)问卷,来评估 LLM,显示模型可以准确生成与所提供人格有关的内容。结果显示,改进的 LLM,如最新的 GPT-4 模型,可以持续地利用和解释人格以代表行为。
Feb, 2024
通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力,研究发现 GPT-3.5 在鲁棒性方面表现出色,但其概括能力相对有限,通过 Chain-of-Thought 等方法可以提高其性能;此外,评估发现 GPT-4 在 GAMA-Bench 上表现最好,得分为 72.5,而 GPT-3.5 的不断更新也标志着模型智能的显着提高。
Mar, 2024
利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力,以推进人工智能 (AGI) 的发展,并提供了 LLM 基础的游戏智能体的综述,包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分,调研了六种游戏类型的现有代表性 LLM 基础游戏智能体,并展望了未来的研究和发展方向。
Apr, 2024
该研究使用心理测量学的方法,对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现,使用普通人物描述时,GPT-4 的回答表现出与人类相似的心理特点,而使用具体人口统计信息的情况下,两个模型的回答则表现较差,此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。
May, 2024
我们提出了一种名为 BOLT 的新型计算框架,用于研究大型语言模型(LLMs)在担任治疗师角色时的对话行为。我们开发了一种上下文学习方法,定量测量 LLMs 的行为,基于包括反映、提问、解决方案、正常化和心理教育在内的 13 种不同的心理治疗技术。我们通过比较 LLM 治疗师与高、低质量人类治疗师的行为,并研究如何调整其行为以更好地体现高质量治疗中观察到的行为,发现 LLMs 的行为更接近低质量治疗,需要进一步研究来确保质量治疗。
Jan, 2024
我们利用大型语言模型将非结构化的心理访谈转化为涵盖各种精神疾病和人格领域的结构化问卷,通过模拟被访者的方式让语言模型回答这些问卷。得到的答案被编码为特征,并使用随机森林回归器预测抑郁症(PHQ-8)和创伤后应激障碍(PCL-C)的标准化精神健康测量值,比多个基准模型表现出更高的诊断准确性。因此,我们的研究提出了一种新的框架来解释非结构化的心理访谈,缩小叙事驱动和数据驱动方法在心理健康评估中的差距。
Jun, 2024
提出了一种采用自适应测试框架评估大型语言模型的方法,该方法可以根据模型的表现动态调整测试问题的难度,从而更准确地估计模型的能力,使得大型语言模型可以与人类进行比较,同时该方法可以使用更少的问题,从而更加高效。对 ChatGPT 等 6 种模型进行了细粒度诊断,并通过不同测试发现 GPT4 模型在主题知识、数理推理和编程方面表现优异,可以达到中等水平学生的认知能力水平。
Jun, 2023