心理学的 LLM 智能体：关于游戏化评估的研究

Feb, 2024

心理学的 LLM 智能体：关于游戏化评估的研究

LLM Agents for Psychology: A Study on Gamified Assessments

Qisen Yang, Zekun Wang, Honghui Chen, Shenzhi Wang, Yifan Pu...

TL;DR通过将强大的 LLM 代理人纳入指定角色并精心管理其互动，PsychoGAT 能够将任何标准化量表转化为个性化、引人入胜的互动小说游戏，并通过心理测量评估证明其有效性，人工评估确认其在内容一致性、互动性、趣味性、沉浸度和满意度方面的改进。

Abstract

psychological measurement is essential for mental health, self-understanding, and personal development. Traditional methods, such as self-report scales and psychologist interviews, often face challenges with engagement and accessibility. While game-based and LLM-based tools have been e

psychological measurement gamification llms psychometric evaluations psychogat

发现论文，激发创造

量化 AI 心理学：大型语言模型的心理测量基准

本论文提出了一个研究大语言模型的心理学的框架，并通过心理测试验证，发现大语言模型表现出广泛的心理属性，并揭示了自我报告特征与现实场景中行为之间的差异。这些研究结果对于可靠的评估和人工智能以及社会科学的潜在应用具有重要的见解。

Jun, 2024

ChatGPT 是谁？利用 PsychoBench 评估 LLM 的心理描绘

该研究提出了一个评估 LLMs 不同心理方面的框架 PsychoBench，其中包括了四个明确分类的部分：人格特征、人际关系、动机测试和情绪能力。研究使用了五个常用模型进行测试，并采用了越狱方法绕过安全对齐协议，测试了 LLMs 的内在特性。

Oct, 2023

以个性为驱动的生成智能体

该研究探讨了大型语言模型（LLMs）利用心理测量值，特别是人格信息，在视频游戏角色开发中的潜力。利用情感计算（AC）系统量化非玩家角色（NPC）的心智，LLM 可以利用该系统的信息通过使用这些数值来生成提示。研究表明 LLM 可以持续地代表给定的人格轮廓，从而增强游戏角色的人类特征。通过重新设计人类检查方法，例如国际人格项目库（IPIP）问卷，来评估 LLM，显示模型可以准确生成与所提供人格有关的内容。结果显示，改进的 LLM，如最新的 GPT-4 模型，可以持续地利用和解释人格以代表行为。

Feb, 2024

关于 LLMs 决策能力的探究：在多智能体环境中评估 LLMs 的游戏能力

通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力，研究发现 GPT-3.5 在鲁棒性方面表现出色，但其概括能力相对有限，通过 Chain-of-Thought 等方法可以提高其性能；此外，评估发现 GPT-4 在 GAMA-Bench 上表现最好，得分为 72.5，而 GPT-3.5 的不断更新也标志着模型智能的显着提高。

Mar, 2024

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

基于大型语言模型的游戏智能代理调查

利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力，以推进人工智能 (AGI) 的发展，并提供了 LLM 基础的游戏智能体的综述，包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分，调研了六种游戏类型的现有代表性 LLM 基础游戏智能体，并展望了未来的研究和发展方向。

Apr, 2024

LLM 模型模拟人类心理行为的有限能力：心理测量分析

该研究使用心理测量学的方法，对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现，使用普通人物描述时，GPT-4 的回答表现出与人类相似的心理特点，而使用具体人口统计信息的情况下，两个模型的回答则表现较差，此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。

May, 2024

LLM 治疗师行为评估的计算框架

我们提出了一种名为 BOLT 的新型计算框架，用于研究大型语言模型（LLMs）在担任治疗师角色时的对话行为。我们开发了一种上下文学习方法，定量测量 LLMs 的行为，基于包括反映、提问、解决方案、正常化和心理教育在内的 13 种不同的心理治疗技术。我们通过比较 LLM 治疗师与高、低质量人类治疗师的行为，并研究如何调整其行为以更好地体现高质量治疗中观察到的行为，发现 LLMs 的行为更接近低质量治疗，需要进一步研究来确保质量治疗。

Jan, 2024

自动精神疾病评估中的 LLM 问卷填写

我们利用大型语言模型将非结构化的心理访谈转化为涵盖各种精神疾病和人格领域的结构化问卷，通过模拟被访者的方式让语言模型回答这些问卷。得到的答案被编码为特征，并使用随机森林回归器预测抑郁症（PHQ-8）和创伤后应激障碍（PCL-C）的标准化精神健康测量值，比多个基准模型表现出更高的诊断准确性。因此，我们的研究提出了一种新的框架来解释非结构化的心理访谈，缩小叙事驱动和数据驱动方法在心理健康评估中的差距。

Jun, 2024

LLM 认知能力的高效测量：自适应测试视角

提出了一种采用自适应测试框架评估大型语言模型的方法，该方法可以根据模型的表现动态调整测试问题的难度，从而更准确地估计模型的能力，使得大型语言模型可以与人类进行比较，同时该方法可以使用更少的问题，从而更加高效。对 ChatGPT 等 6 种模型进行了细粒度诊断，并通过不同测试发现 GPT4 模型在主题知识、数理推理和编程方面表现优异，可以达到中等水平学生的认知能力水平。

Jun, 2023