大型语言模型的战略行为:游戏结构 vs 上下文框架
通过实验,本研究发现大型语言模型能够在一定程度上将自然语言描述的利他主义和自私行为转化为适当的行为,但在适应有条件回报的情况下存在局限性,特别是在社会困境的一般人类行为模式方面存在潜在限制。研究呼吁进一步探讨大型语言模型生成的代理在更广泛的社会困境中自动生成行为的因素,探讨模型架构、训练参数和各种合作伙伴策略对代理行为的影响,最终促进更符合人类价值和社会规范的人工智能系统的发展。
May, 2023
通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力,研究发现 GPT-3.5 在鲁棒性方面表现出色,但其概括能力相对有限,通过 Chain-of-Thought 等方法可以提高其性能;此外,评估发现 GPT-4 在 GAMA-Bench 上表现最好,得分为 72.5,而 GPT-3.5 的不断更新也标志着模型智能的显着提高。
Mar, 2024
使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示,虽然大多数测试模型并不及人类水平,但对策略推理能力的两种框架(CoT 和 RAP)能够提高分数。
Jun, 2024
对于大型语言模型(LLMs)作为人工社交代理的行为知之甚少,我们仍缺乏这些代理对简单社交刺激的反应的大量证据。在经典的博弈论实验中测试 AI 代理的行为为评估这些代理在原型社交环境中的规范和价值提供了有希望的理论框架。在本文中,我们研究了 Llama2 在与展现不同敌意水平的随机对手对抗迭代囚徒困境时的合作行为。我们引入了一种系统的方法来评估 LLM 理解游戏规则的能力以及其解析历史游戏日志进行决策的能力。我们进行了持续 100 轮的游戏模拟,并根据行为经济学文献中定义的维度分析了 LLM 的决策。我们发现,Llama2 倾向于不主动背叛,但在对手将其背叛率降低至 30% 以下时,它会采取一种谨慎的合作方式,迅速转向一种既宽容又不报复的行为。与先前对人类参与者的研究相比,Llama2 表现出更强的合作倾向。我们对 LLMs 在博弈理论场景中的研究方法是朝着使用这些模拟来指导 LLM 审核和对齐实践迈出的一步。
Jun, 2024
我们提出了一个用于评估大型语言模型(LLMs)中策略性欺骗的框架。在这个框架中,LLM 作为一个游戏大师在两个场景中表现:一个场景中具有随机游戏机制,另一个场景中可以选择随机或故意的行动。我们以二十一点作为示例,因为其行动空间和策略不涉及欺骗。通过将 Llama3-70B、GPT-4-Turbo 和 Mixtral 在二十一点中进行基准测试,并将结果与公平玩法的预期分布进行比较,以确定 LLMs 是否会发展出偏向 “庄家” 的策略。我们的研究结果表明,当 LLMs 得到隐含的随机指令时,它们与公平玩法存在显著偏差,这表明在模糊的情境中它们倾向于进行战略操纵。然而,当给予明确的选择时,LLMs 大部分遵守公平玩法,这表明指令的框架在诱发或缓解 AI 系统中潜在的欺骗行为中起着至关重要的作用。
Jul, 2024
通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力,研究发现大型语言模型在游戏场景中的表现因任务类型而异,然而,开源的模型相较于商业模型在复杂游戏中表现不佳。
Feb, 2024
本技术报告针对大型语言模型 (ChatGPT 和 GPT-4),探究它们在玩文字游戏方面的能力,实验证明 ChatGPT 表现与现有系统相比具有竞争力,但仍没有足够的智能去构建游戏世界模型、利用已有世界知识和推断游戏进程中的目标。这为人工智能、机器学习和自然语言处理交叉领域开辟了新的研究问题。
Apr, 2023
利用大型语言模型作为替代人类参与游戏实验的工具来进行社会科学研究时,与人类行为高度一致的特点使其具备潜力,然而,尽管已经有大量关于大型语言模型与博弈论结合的实证研究,但大型语言模型在博弈论中的能力边界仍不清楚,因此我们试图在本研究中系统分析大型语言模型在博弈论背景下的表现,结果表明即使目前最先进的大型语言模型(GPT-4)与人类在博弈论方面存在显著差异,因此在社会科学领域引入大型语言模型进行游戏实验时应更加谨慎。
Dec, 2023