利用实验经济学研究大型语言模型中出现的类目标行为

May, 2023

利用实验经济学研究大型语言模型中出现的类目标行为

Investigating Emergent Goal-Like Behaviour in Large Language Models Using Experimental Economics

Steve Phelps, Yvan I. Russell

TL;DR通过实验，本研究发现大型语言模型能够在一定程度上将自然语言描述的利他主义和自私行为转化为适当的行为，但在适应有条件回报的情况下存在局限性，特别是在社会困境的一般人类行为模式方面存在潜在限制。研究呼吁进一步探讨大型语言模型生成的代理在更广泛的社会困境中自动生成行为的因素，探讨模型架构、训练参数和各种合作伙伴策略对代理行为的影响，最终促进更符合人类价值和社会规范的人工智能系统的发展。

Abstract

In this study, we investigate the capacity of large language models (LLMs), specifically GPT-3.5, to operationalise natural language descriptions of cooperative, competitive, altruistic, and self-interested behavior in social dilemmas. Our focus is on the →

large language models iterated prisoner's dilemma altruism selfishness cooperation

发现论文，激发创造

使用大型语言模型进行反复游戏

使用行为博弈理论研究大型语言模型行为，结果显示它们在自我利益方面的表现非常出色，但在协调方面表现不佳，尤其表现出一些行为特征。

May, 2023

比人类更友好：大型语言模型在囚徒困境中的行为如何？

对于大型语言模型（LLMs）作为人工社交代理的行为知之甚少，我们仍缺乏这些代理对简单社交刺激的反应的大量证据。在经典的博弈论实验中测试 AI 代理的行为为评估这些代理在原型社交环境中的规范和价值提供了有希望的理论框架。在本文中，我们研究了 Llama2 在与展现不同敌意水平的随机对手对抗迭代囚徒困境时的合作行为。我们引入了一种系统的方法来评估 LLM 理解游戏规则的能力以及其解析历史游戏日志进行决策的能力。我们进行了持续 100 轮的游戏模拟，并根据行为经济学文献中定义的维度分析了 LLM 的决策。我们发现，Llama2 倾向于不主动背叛，但在对手将其背叛率降低至 30% 以下时，它会采取一种谨慎的合作方式，迅速转向一种既宽容又不报复的行为。与先前对人类参与者的研究相比，Llama2 表现出更强的合作倾向。我们对 LLMs 在博弈理论场景中的研究方法是朝着使用这些模拟来指导 LLM 审核和对齐实践迈出的一步。

Jun, 2024

大善大恶与独霸型 GPT：合作与交易游戏中大型语言模型情感决策分析

通过对大型语言模型的实验，研究表明情绪对其行为的决策和人类决策的关联存在重要影响，其中 GPT-4 在情绪状态下表现出与人类类似的行为响应。

Jun, 2024

语言模型合作性可扩展评估

本文探讨了基于预训练语言模型的 AI 系统在协作问题上的行为，并通过众包和模型生成场景进行评估和测试，最后提供了一组生成场景的数据集和模型评估结果。

Mar, 2023

大型语言模型的战略行为：游戏结构 vs 上下文框架

通过四个典型的双人博弈游戏，研究了 GPT-3.5、GPT-4 和 LLaMa-2 这三种大型语言模型在战略决策能力方面，同时考察了上下文框架对模型决策的影响，结果发现 LLM 在战略决策方面存在限制和熟练程度差异，不宜在需要复杂战略推理的任务中不加区分地使用。

Sep, 2023

LLM 代理人是否表现出社会行为？

大型语言模型在社交科学研究和实际应用中的作用被不断拓展，然而在与人类和其他代理进行交互时，这些模型展现了一系列人类类似的社交行为，同时也存在一些行为差异，因此需要进一步研究和发展评估协议，以直接应用这些模型来模拟人类行为。

Dec, 2023

CompeteAI: 大型语言模型代理的竞争行为理解

大型语言模型的竞争行为研究：本文提出了一个通用框架来研究基于 LLMs 的代理之间的竞争行为，并使用 GPT-4 实现了一个模拟虚拟城镇的实际竞争环境，包括餐厅代理和顾客代理。研究发现竞争促使餐厅代理采取不同的运营策略，呈现出社会学和经济学理论所支持的一些有趣结果。

Oct, 2023

语言模型中出现的类人直觉行为和推理偏见 —— 以及 GPT-4 中的消失

本研究通过使用心理学方法，展示了大型语言模型（LLMs），尤其是 GPT-3，表现出类似于人类直觉的行为和认知错误，而具有更高认知能力的 LLMs，特别是 ChatGPT 和 GPT-4，学会避免这些错误，并表现出超理性的方式；此外，我们还探究了直觉决策倾向的稳定程度。

Jun, 2023

大型语言模型能否作为博弈论中的理性参与者？一项系统分析

利用大型语言模型作为替代人类参与游戏实验的工具来进行社会科学研究时，与人类行为高度一致的特点使其具备潜力，然而，尽管已经有大量关于大型语言模型与博弈论结合的实证研究，但大型语言模型在博弈论中的能力边界仍不清楚，因此我们试图在本研究中系统分析大型语言模型在博弈论背景下的表现，结果表明即使目前最先进的大型语言模型（GPT-4）与人类在博弈论方面存在显著差异，因此在社会科学领域引入大型语言模型进行游戏实验时应更加谨慎。

Dec, 2023

大型语言模型能否进行上下文探索？

现代大型语言模型（LLMs）在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有 LLMs 的本地性能。我们将 LLMs 部署为简单的多臂赌博机环境中的代理，使用完全基于环境描述和交互历史的 LLM 提示。通过实验，我们发现模型在没有干预的情况下无法稳定地进行探索。尽管某些配置表现良好，但得出的结论是在复杂环境中，可能需要非平凡的算法干预才能使 LLMs 代理能够做出理想的决策。

Mar, 2024