MacBehaviour: 用于大型语言模型行为实验的 R 包
研究论文介绍机器心理学作为一种新的研究领域,通过不同的心理学子领域设计行为测试以深入评估和分析大型语言模型的能力和特点,特别是关注快速设计的政策,并且描述如何解释发现在 LLMs 中的行为模式以发现传统自然语言处理基准无法检测到的新的能力
Mar, 2023
我们提出了一种名为 BOLT 的新型计算框架,用于研究大型语言模型(LLMs)在担任治疗师角色时的对话行为。我们开发了一种上下文学习方法,定量测量 LLMs 的行为,基于包括反映、提问、解决方案、正常化和心理教育在内的 13 种不同的心理治疗技术。我们通过比较 LLM 治疗师与高、低质量人类治疗师的行为,并研究如何调整其行为以更好地体现高质量治疗中观察到的行为,发现 LLMs 的行为更接近低质量治疗,需要进一步研究来确保质量治疗。
Jan, 2024
本论文研究了大型语言模型在职业决策过程中与性别刻板印象相关的行为,通过多轮问答的方式,探究和量化了性别刻板印象在语言模型行为中的存在,并测试了三种模型的偏好。发现所有模型都存在类似于人类偏见的性别刻板印象,但偏好不同,且 GPT-3.5-turbo 和 Llama2-70b-chat 的不同偏好可能意味着当前的对齐方法对消除偏见不足够,甚至可能引入与传统性别刻板印象相矛盾的新偏见。
May, 2024
对 Llama2、GPT4 和 Mixtral 等大型语言模型对五大人格特质进行仿真的实证研究,分析了这些模型所模拟的人格特质及其稳定性,这有助于更深入地了解 LLMs 模拟人格特质的能力以及对个性化人机交互的影响。
Jan, 2024
利用大型语言模型和行为测试的评估框架来检测机器翻译系统的行为,提出了一种通过针对不同场景生成多样的源句子、使用候选集进行验证的方法,并揭示使用准确率等传统度量指标难以察觉的重要差异和潜在错误。
Sep, 2023
该研究使用心理测量学的方法,对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现,使用普通人物描述时,GPT-4 的回答表现出与人类相似的心理特点,而使用具体人口统计信息的情况下,两个模型的回答则表现较差,此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。
May, 2024
通过对大型语言模型的实验,研究表明情绪对其行为的决策和人类决策的关联存在重要影响,其中 GPT-4 在情绪状态下表现出与人类类似的行为响应。
Jun, 2024
利用大型语言模型模拟学生学习行为,揭示学习行为与测试问题、课程材料、参与度和理解水平之间的关联,加深我们对大型语言模型的理解,展示其对学生模拟的可行性,从而为更具适应性的课程设计提供支持,增强包容性和教育效果。
Oct, 2023
这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架,通过游戏和博弈论场景来创建不同的测试环境,并利用概率图模型方法增强模型的导航能力,最终量化评估了七种不同大型语言模型的能力,发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距,同时证实了概率图模型增强了所有模型的能力,平均提高了 50%。
Nov, 2023
对于大型语言模型(LLMs)作为人工社交代理的行为知之甚少,我们仍缺乏这些代理对简单社交刺激的反应的大量证据。在经典的博弈论实验中测试 AI 代理的行为为评估这些代理在原型社交环境中的规范和价值提供了有希望的理论框架。在本文中,我们研究了 Llama2 在与展现不同敌意水平的随机对手对抗迭代囚徒困境时的合作行为。我们引入了一种系统的方法来评估 LLM 理解游戏规则的能力以及其解析历史游戏日志进行决策的能力。我们进行了持续 100 轮的游戏模拟,并根据行为经济学文献中定义的维度分析了 LLM 的决策。我们发现,Llama2 倾向于不主动背叛,但在对手将其背叛率降低至 30% 以下时,它会采取一种谨慎的合作方式,迅速转向一种既宽容又不报复的行为。与先前对人类参与者的研究相比,Llama2 表现出更强的合作倾向。我们对 LLMs 在博弈理论场景中的研究方法是朝着使用这些模拟来指导 LLM 审核和对齐实践迈出的一步。
Jun, 2024