MacBehaviour: 用于大型语言模型行为实验的 R 包

May, 2024

MacBehaviour: 用于大型语言模型行为实验的 R 包

MacBehaviour: An R package for behavioural experimentation on large language models

Xufeng Duan, Shixuan Li, Zhenguang G. Cai1

TL;DR“MacBehaviour” 是一个用于机器行为研究的 R 包，提供用户友好界面和全面功能以简化和标准化实验过程。

Abstract

There has been increasing interest in investigating the behaviours of large language models (LLMs) and LLM-powered chatbots by treating an LLM as a participant in a psychological experiment. We therefore developed an R package called "macbehaviour" that aims to interact with more than

large language models macbehaviour behaviour experiments validation experiments machine behaviour studies

发现论文，激发创造

机器心理学：采用心理学方法研究大型语言模型中的新兴能力和行为

研究论文介绍机器心理学作为一种新的研究领域，通过不同的心理学子领域设计行为测试以深入评估和分析大型语言模型的能力和特点，特别是关注快速设计的政策，并且描述如何解释发现在 LLMs 中的行为模式以发现传统自然语言处理基准无法检测到的新的能力

Mar, 2023

LLM 治疗师行为评估的计算框架

我们提出了一种名为 BOLT 的新型计算框架，用于研究大型语言模型（LLMs）在担任治疗师角色时的对话行为。我们开发了一种上下文学习方法，定量测量 LLMs 的行为，基于包括反映、提问、解决方案、正常化和心理教育在内的 13 种不同的心理治疗技术。我们通过比较 LLM 治疗师与高、低质量人类治疗师的行为，并研究如何调整其行为以更好地体现高质量治疗中观察到的行为，发现 LLMs 的行为更接近低质量治疗，需要进一步研究来确保质量治疗。

Jan, 2024

雇佣我还是不雇佣？考察语言模型对职业属性的行为

本论文研究了大型语言模型在职业决策过程中与性别刻板印象相关的行为，通过多轮问答的方式，探究和量化了性别刻板印象在语言模型行为中的存在，并测试了三种模型的偏好。发现所有模型都存在类似于人类偏见的性别刻板印象，但偏好不同，且 GPT-3.5-turbo 和 Llama2-70b-chat 的不同偏好可能意味着当前的对齐方法对消除偏见不足够，甚至可能引入与传统性别刻板印象相矛盾的新偏见。

May, 2024

LLMs 模拟五大人格特质：进一步证据

对 Llama2、GPT4 和 Mixtral 等大型语言模型对五大人格特质进行仿真的实证研究，分析了这些模型所模拟的人格特质及其稳定性，这有助于更深入地了解 LLMs 模拟人格特质的能力以及对个性化人机交互的影响。

Jan, 2024

自动化行为测试在机器翻译中的应用

利用大型语言模型和行为测试的评估框架来检测机器翻译系统的行为，提出了一种通过针对不同场景生成多样的源句子、使用候选集进行验证的方法，并揭示使用准确率等传统度量指标难以察觉的重要差异和潜在错误。

Sep, 2023

LLM 模型模拟人类心理行为的有限能力：心理测量分析

该研究使用心理测量学的方法，对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现，使用普通人物描述时，GPT-4 的回答表现出与人类相似的心理特点，而使用具体人口统计信息的情况下，两个模型的回答则表现较差，此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。

May, 2024

大善大恶与独霸型 GPT：合作与交易游戏中大型语言模型情感决策分析

通过对大型语言模型的实验，研究表明情绪对其行为的决策和人类决策的关联存在重要影响，其中 GPT-4 在情绪状态下表现出与人类类似的行为响应。

Jun, 2024

利用生成人工智能模拟学生学习行为

利用大型语言模型模拟学生学习行为，揭示学习行为与测试问题、课程材料、参与度和理解水平之间的关联，加深我们对大型语言模型的理解，展示其对学生模拟的可行性，从而为更具适应性的课程设计提供支持，增强包容性和教育效果。

Oct, 2023

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了 50%。

Nov, 2023

比人类更友好：大型语言模型在囚徒困境中的行为如何？

对于大型语言模型（LLMs）作为人工社交代理的行为知之甚少，我们仍缺乏这些代理对简单社交刺激的反应的大量证据。在经典的博弈论实验中测试 AI 代理的行为为评估这些代理在原型社交环境中的规范和价值提供了有希望的理论框架。在本文中，我们研究了 Llama2 在与展现不同敌意水平的随机对手对抗迭代囚徒困境时的合作行为。我们引入了一种系统的方法来评估 LLM 理解游戏规则的能力以及其解析历史游戏日志进行决策的能力。我们进行了持续 100 轮的游戏模拟，并根据行为经济学文献中定义的维度分析了 LLM 的决策。我们发现，Llama2 倾向于不主动背叛，但在对手将其背叛率降低至 30% 以下时，它会采取一种谨慎的合作方式，迅速转向一种既宽容又不报复的行为。与先前对人类参与者的研究相比，Llama2 表现出更强的合作倾向。我们对 LLMs 在博弈理论场景中的研究方法是朝着使用这些模拟来指导 LLM 审核和对齐实践迈出的一步。

Jun, 2024