基于推断的一般求和差分博弈策略对齐

Feb, 2020

基于推断的一般求和差分博弈策略对齐

Inference-Based Strategy Alignment for General-Sum Differential Games

Lasse Peters, David Fridovich-Keil, Claire J. Tomlin, Zachary N. Sunberg

TL;DR文章提出了一个通用框架，通过推断其他代理方的平衡状态来解决不确定性问题，并在多人机器人导航问题的模拟中证明，通过对准平衡状态，机器人可以更准确地预测轨迹并降低所有玩家的成本。

Abstract

In many settings where multiple agents interact, the optimal choices for each agent depend heavily on the choices of the others. These coupled interactions are well-described by a general-sum differential game, in which players have differing objectives, the state evolves in continuous

multi-agent interactions differential game equilibrium concepts uncertainty human-robot navigation

发现论文，激发创造

连续游戏中基于梯度的学习

本研究提出了一个广泛适用于多智能体领域的竞争性基于梯度的学习模型，并使用动态系统理论对其进行了分析，对于有限和无限游戏，我们表征了一组非常小的局部纳什均衡，这组均衡将被激活，如果每个智能体采用基于梯度的学习算法。同时研究了基于算法自身构建的不属于纳什均衡的收敛策略在有限和无限游戏中的存在性，这可能解释了在零和游戏中，应用相关算法时出现的困难。最后，为了验证理论贡献，我们给出了一个示例验证。

Apr, 2018

梯度动力学在迭代一般和游戏中的 Nash 收敛

本研究通过对二人博弈中多智能体学习策略的分析，提出了一个令人惊讶的结论 —— 不论策略是否收敛，智能体的平均收益都会收敛于纳什均衡，在电子商务和拍卖中具有一定的适用性。

Jan, 2013

相关对局的回顾性和序贯理性

通过适应性算法的考虑以确保比修改行为所能达到的结果更好，我们可以基于相关学习动态产生新的博弈理论分析，这样做比基于平衡策略算法更加有效，因为前者可以处理非零和多人博弈问题。我们重新审视了博弈理论中的中介均衡和偏差类型，证明了没有可行的概念包含所有其他类型，并引出了一个追溯与规避策略算法的平衡类别的定义。

Dec, 2020

多人零和游戏中解决联盟困境的学习

本研究通过对称的零和矩阵游戏，证明了联盟形成可以被看作是一个社会困境，并且实证表明，在多代理强化学习中，天真的方法往往失败。同时，我们引入了点对点的合约机制来发现和执行联盟。最后，我们将我们的代理模型推广到了包括时间延伸合约的情况，并提出了进一步研究的机会。

Feb, 2020

端到端游戏学习和干预

本文提出了一个通过学习和干预博弈进行端到端优化的框架，将博弈均衡作为个体层级进行整合，并提出了两种不同的方法用于学习个体的收益函数并在解决变分不等式的过程中进行反向传播。

Oct, 2020

在两队零和博弈中收敛到纳什均衡

研究内容涵盖电子竞技中的机器学习，多代理生成对抗网络的表现力，以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏，对在线学习算法的能力进行了讨论，并提出了一个基于控制论技术的一阶方法用于解决该类问题，该方法能够在某些条件下享有局部收敛性。

Nov, 2021

迈向对称多人游戏的有原则的超越人类水平 AI

多人游戏的独特挑战在于均衡策略的非唯一性和代理人执行高度次优策略的风险。本文首次解决了多人对称标准形式游戏中的这些挑战，给出了 AI 代理人应该找到的正确解决方案以及能够证明解决该类游戏的通用算法框架。我们还证明了许多先前实用系统中开发的元算法甚至无法实现基本目标，即获得代理人的总奖励的平等份额。

Jun, 2024

一种广义经验博弈理论分析方法

本文提供了复杂多代理交互的经验博弈理论上界，研究了元博弈理论、博弈均衡、数据样本量、非对称游戏与多代理学习算法，并在 AlphaGo、Colonel Blotto 和 Leduc Poker 等不同情境下进行实证探究其进化动态。

Mar, 2018

带有单边信息的受状态限制的零和微分博弈

我们研究了带有状态约束和单侧信息的零和微分博弈，其中被告知的玩家（玩家 1）具有未知于未告知玩家（玩家 2）的分类奖励类型。玩家 1 的目标是在不违反约束的情况下最小化他的奖励，而玩家 2 的目标是要么违反状态约束，要么最大化奖励。我们的理论贡献是将这一结果扩展到带有状态约束的微分博弈，并导出计算行为策略所必需的原始和对偶子动态规则。与现有关注可伸缩性和泛化性的不完全信息动态博弈研究相比，我们关注的是揭示由于信息不对称和状态约束而导致的信念操纵行为的机制。我们使用简化的足球比赛来证明这项工作的实用性，我们揭示了攻击者应该（或不应该）在特定随机虚假行动中利用信息不对称的玩家位置和信念状态，并计算出防守者应该如何应对。

Mar, 2024

使用相关均衡元解算器进行非零和多智能体训练

提出了用于训练 n 人，广义和形博弈的 Joint Policy-Space Response Oracles (JPSRO) 算法，并建议一种有前途的元解算程序 -- 相关均衡 (correlated equilibria)，并提出了最大基尼相关均衡 (MGCE) 的新解决方案概念。通过使用 CE 元解决程序对 JPSRO 进行多次实验，证明了在 n 人，广义和游戏中的收敛性。

Jun, 2021