利用实验经济学研究大型语言模型中出现的类目标行为
对于大型语言模型(LLMs)作为人工社交代理的行为知之甚少,我们仍缺乏这些代理对简单社交刺激的反应的大量证据。在经典的博弈论实验中测试 AI 代理的行为为评估这些代理在原型社交环境中的规范和价值提供了有希望的理论框架。在本文中,我们研究了 Llama2 在与展现不同敌意水平的随机对手对抗迭代囚徒困境时的合作行为。我们引入了一种系统的方法来评估 LLM 理解游戏规则的能力以及其解析历史游戏日志进行决策的能力。我们进行了持续 100 轮的游戏模拟,并根据行为经济学文献中定义的维度分析了 LLM 的决策。我们发现,Llama2 倾向于不主动背叛,但在对手将其背叛率降低至 30% 以下时,它会采取一种谨慎的合作方式,迅速转向一种既宽容又不报复的行为。与先前对人类参与者的研究相比,Llama2 表现出更强的合作倾向。我们对 LLMs 在博弈理论场景中的研究方法是朝着使用这些模拟来指导 LLM 审核和对齐实践迈出的一步。
Jun, 2024
通过对大型语言模型的实验,研究表明情绪对其行为的决策和人类决策的关联存在重要影响,其中 GPT-4 在情绪状态下表现出与人类类似的行为响应。
Jun, 2024
通过四个典型的双人博弈游戏,研究了 GPT-3.5、GPT-4 和 LLaMa-2 这三种大型语言模型在战略决策能力方面,同时考察了上下文框架对模型决策的影响,结果发现 LLM 在战略决策方面存在限制和熟练程度差异,不宜在需要复杂战略推理的任务中不加区分地使用。
Sep, 2023
大型语言模型在社交科学研究和实际应用中的作用被不断拓展,然而在与人类和其他代理进行交互时,这些模型展现了一系列人类类似的社交行为,同时也存在一些行为差异,因此需要进一步研究和发展评估协议,以直接应用这些模型来模拟人类行为。
Dec, 2023
大型语言模型的竞争行为研究:本文提出了一个通用框架来研究基于 LLMs 的代理之间的竞争行为,并使用 GPT-4 实现了一个模拟虚拟城镇的实际竞争环境,包括餐厅代理和顾客代理。研究发现竞争促使餐厅代理采取不同的运营策略,呈现出社会学和经济学理论所支持的一些有趣结果。
Oct, 2023
本研究通过使用心理学方法,展示了大型语言模型(LLMs),尤其是 GPT-3,表现出类似于人类直觉的行为和认知错误,而具有更高认知能力的 LLMs,特别是 ChatGPT 和 GPT-4,学会避免这些错误,并表现出超理性的方式;此外,我们还探究了直觉决策倾向的稳定程度。
Jun, 2023
利用大型语言模型作为替代人类参与游戏实验的工具来进行社会科学研究时,与人类行为高度一致的特点使其具备潜力,然而,尽管已经有大量关于大型语言模型与博弈论结合的实证研究,但大型语言模型在博弈论中的能力边界仍不清楚,因此我们试图在本研究中系统分析大型语言模型在博弈论背景下的表现,结果表明即使目前最先进的大型语言模型(GPT-4)与人类在博弈论方面存在显著差异,因此在社会科学领域引入大型语言模型进行游戏实验时应更加谨慎。
Dec, 2023
现代大型语言模型(LLMs)在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有 LLMs 的本地性能。我们将 LLMs 部署为简单的多臂赌博机环境中的代理,使用完全基于环境描述和交互历史的 LLM 提示。通过实验,我们发现模型在没有干预的情况下无法稳定地进行探索。尽管某些配置表现良好,但得出的结论是在复杂环境中,可能需要非平凡的算法干预才能使 LLMs 代理能够做出理想的决策。
Mar, 2024