游戏中的递归联合模拟

Feb, 2024

Recursive Joint Simulation in Games

Vojtech Kovarik, Caspar Oesterheld, Vincent Conitzer

TL;DR在这篇论文中，我们研究了AI代理之间的相互作用，其中代理运行递归联合模拟。结果显示，这种互动在战略上等同于原始游戏的无限重复版本，从而实现了现有结果的直接转移，如各种民间定理。

Abstract

game-theoretic dynamics between ai agents could differ from traditional human-human interactions in various ways. One such difference is that it may be possible to accurately simulate an AI agent, for example bec

发现论文，激发创造

人类临时协调建模

在不确定的环境中，对于合作行为的协调最有效的方式是通过相互理解并达成共识。我们提出了一种精确的算法来计算在不确定环境下合理协调所需的无限递归分级信念，并引入了一种新的多智能体协调机制。我们测试了该机制作为人的决策模型的效果，并发现这种方式可以提高人-智能体的协同效率。

Feb, 2016

多智能体强化学习的概率递归推理

本论文提出了一种基于递归推理与变分Bayes方法的多智体强化学习框架，该框架可以用于建模智体对手的行为，提高智体的自我决策能力以及使其在博弈中达成Nash均衡。实验证明，关于智体对手信念的推理，是智体强化学习中一个重要的方向。

Jan, 2019

在合作部分可观察游戏中通过搜索优化策略

本文提出了两种搜索技术，分别是单智能体搜索和多智能体共同知识搜索，在合作部分可观察游戏中应用，以提升合作智能体的性能。在Hanabi基准挑战问题中，两种技术均能大幅提高每个测试智能体的性能，并对使用RL训练的策略产生了新的最先进得分24.61/25。

Dec, 2019

自适应算法和耦合协作

该研究基于连续时间技术提出了一个理论模型，旨在研究适应性学习算法之间的策略互动。通过揭示算法之间的自发耦合机制，该研究证明了人工智能算法之间存在的勾结现象，并提出了一种足以消除算法间自发耦合的充分条件，以及设计学习鲁棒性策略的机制所必要的回馈机制。

Feb, 2022

合作人工智能

本研究探讨了人工智能和博弈论的交叉领域，通过设计自动学习规则和设置奖惩机制来实现良好的社会合作，致力于构建一个合作型人工智能的研究目标。

Feb, 2022

多智能体强化学习中的递归推理图

采用递归推理模型和中央训练-分散执行框架的多智能体强化学习算法，能够帮助学习代理更好地合作或竞争，取得了多个多智能体粒子和机器人游戏中的最佳性能。

Mar, 2022

语言模型合作性可扩展评估

本文探讨了基于预训练语言模型的 AI 系统在协作问题上的行为，并通过众包和模型生成场景进行评估和测试，最后提供了一组生成场景的数据集和模型评估结果。

Mar, 2023

面向协作多智能体系统的分层博弈决策制定在对抗智能体存在下的应用

本文提出了一种新的层次化基于网络的游戏论效用树（GUT）模型，将高级策略分解成可执行的低级动作以协同 MAS 决策。该模型结合了基于代理需求的新的支付措施，可帮助协同决策，其在实时策略游戏领域取得了良好的表现，同时使用机器人实验室验证了其在真实机器人应用中的有效性，可有效组织 MAS 合作策略，帮助群体获得更高性能。

Mar, 2023

解决协作不兼容问题实现零射击的人工智能协调

通过采用博弈论和图论等技术，本文提出了COLE框架，用于解决协作不匹配问题，并在在线Overcooked人工智能实验平台中验证其有效性，结果表明其优于现有方法。

Jun, 2023

游戏中基于自然语言沟通的人工智能与人类协作

在信息不对称的情况下，开发能够制定策略并与人类合作的自主代理人是具有挑战性的，需要有效的自然语言交流。我们引入了一个共享控制游戏，两个玩家轮流共同控制一个令牌，以在不完整信息下实现共同目标。我们对一个自主代理人在此游戏中与另一位玩家（人类）的政策综合问题进行了数学建模。为了解决这个问题，我们提出了一种基于通信的方法，包括一个语言模块和一个规划模块。语言模块将自然语言消息与定义玩家意图的有限标志集之间进行翻译。规划模块利用这些标志，使用我们提出的基于不对称信息集的蒙特卡洛树搜索与标志交换算法计算策略。我们使用《夜间侏儒》作为基础的测试场景进行了这种方法的有效性评估，该场景是一个搜索和找到迷宫棋盘游戏。人类主体实验的结果表明，通过交流，玩家之间的信息鸿沟变小，合作效率提高，并减少回合数。

May, 2024