端到端游戏学习和干预

Oct, 2020

End-to-End Learning and Intervention in Games

Jiayang Li, Jing Yu, Yu Marco Nie, Zhaoran Wang

TL;DR本文提出了一个通过学习和干预博弈进行端到端优化的框架，将博弈均衡作为个体层级进行整合，并提出了两种不同的方法用于学习个体的收益函数并在解决变分不等式的过程中进行反向传播。

Abstract

In a social system, the self-interest of agents can be detrimental to the collective good, sometimes leading to social dilemmas. To resolve such a conflict, a central designer may intervene by either redesigning the system or incentivizing the agents to change their behaviors. To be effective, the designer must anticipate how the agents react to the

learning intervention games equilibria payoff functions

发现论文，激发创造

我们在玩什么游戏？正常形式与广义形式博弈中的端到端学习

本文提出一种基于可微分学习框架的扩展型博弈求解方法，包括一个求解量化应答均衡点的迭代算法和一个反向传播算法，该方法能够通过深度学习模型端到端地学习博弈模型，我们在多个博弈场景下进行了验证。

May, 2018

基于推断的一般求和差分博弈策略对齐

文章提出了一个通用框架，通过推断其他代理方的平衡状态来解决不确定性问题，并在多人机器人导航问题的模拟中证明，通过对准平衡状态，机器人可以更准确地预测轨迹并降低所有玩家的成本。

Feb, 2020

连续游戏中基于梯度的学习

本研究提出了一个广泛适用于多智能体领域的竞争性基于梯度的学习模型，并使用动态系统理论对其进行了分析，对于有限和无限游戏，我们表征了一组非常小的局部纳什均衡，这组均衡将被激活，如果每个智能体采用基于梯度的学习算法。同时研究了基于算法自身构建的不属于纳什均衡的收敛策略在有限和无限游戏中的存在性，这可能解释了在零和游戏中，应用相关算法时出现的困难。最后，为了验证理论贡献，我们给出了一个示例验证。

Apr, 2018

双人零和博弈中智能体理性的大规模学习

这篇论文介绍了一种应用于实际情境下的框架，用于推断底层博弈参数，其中包括了基于决策理论的行为模型，用于学习复杂博弈中有理智的行为，并利用第一阶原始 - 对偶方法扩展了有效的端到端学习算法和简化博弈求解和梯度计算的计算。

Mar, 2019

使用隐式层学习多智体轨迹的博弈论模型

该研究提出了一种可解释性强、基于神经网络和博弈理论的、能转化为下游决策制定的端到端可训练架构，用于预测相互作用代理的轨迹。该模型使用一个神经网络从代理的过去轨迹中提取偏好，并使用可微分的隐式层将这些偏好映射到局部纳什均衡，从而形成预测的未来轨迹的模式。实验评估表明，该方法在预测高速公路驾驶员合并轨迹和简单的决策制定任务上都取得了良好表现。

Aug, 2020

多智体元梯度强化学习中的自适应激励设计

本文研究了在应用人工智能并应用于共享环境中，设计机构机制以体现社会福利的重要性。我们提出了一种基于元梯度方法的自适应激励设计算法，该算法通过在线交叉验证原则显式考虑其对代理学习的影响，并通过它们对未来社会福利的影响进行优化系统目标

Dec, 2021

关于多智体互动的微分博弈、最优控制和能量模型之间的关联

该研究论文提出了一种基于能量的潜在博弈模型，通过整合神经网络和可微分博弈论优化层，应用于机器人交互中，显示了改进神经网络预测性能的实证结果。

Aug, 2023

游戏中的突变偏好学习

我们提出了基于进化博弈理论考虑的两种多智能体强化学习算法的变体。一个变体的有意简化使我们能够证明它与一类常微分方程系统的复制子 - 变异体动力学的关系，从而通过它的常微分方程对应项在各种环境中展示了该算法的收敛条件。相较于更复杂的算法，另一个更复杂的变体允许与 Q 学习算法进行比较。我们在一系列环境中通过实验将这两个变体与 WoLF-PHC 和频率调整的 Q 学习进行比较，展示了我们的变体在维度增加的情况下保持收敛性的实例与更复杂算法的对比。解析结果的可用性相对于纯经验案例研究提供了一定的可转移性，展示了在处理收敛性和可靠的推广问题时，动力系统视角对多智能体强化学习的普适性。

May, 2024

为了取得更好成绩而付费：学习智能体之间的游戏支付

在重复博弈中，我们研究了采用货币调节等教授动态学习策略的玩家对于行为激励的影响，包括其对学习动态、福利和分配的影响，并提出了一个简单的博弈论模型以解释这些情况。我们的研究表明，在一类广泛的博弈中，通过让学习代理在游戏动态过程中向其他玩家支付，玩家的福利得到提高，而在拍卖过程中，通过制定 “支付政策博弈” 的均衡，代理动态可以达到低收益的合谋结果，这为与机制设计相关的自动学习代理的系统提出了挑战。

May, 2024

学习代理的计量经济学

本文开发了一种理论，可以在广义第二价格拍卖中从观察到的数据中推断出玩家估值，而不需要依赖于纳什均衡的假设，并展示了如何在一些 no-regret learning 算法的假设下推断玩家的价值，这对于在拍卖数据上测试任何学习理论行为模型前的重要步骤。

May, 2015