通过预测其他学习者的行为在多智能体环境中最大化效用

Jul, 2024

通过预测其他学习者的行为在多智能体环境中最大化效用

Maximizing utility in multi-agent environments by anticipating the behavior of other learners

Angelos Assos, Yuval Dagan, Constantinos Daskalakis

TL;DR在本论文中，我们研究了多次重复的两人博弈情境中，涉及学习算法和优化算法的两种类型代理者的决策互动，提供了针对Replicator Dynamics和Multiplicative Weights Update（MWU）的优化算法，以及涉及MWU的离散时间设置的平均效用保证，但未解决P=NP时的多项式时间近似以及优化到$o(T)$效用的算法问题。

Abstract

learning algorithms are often used to make decisions in sequential decision-making environments. In multi-agent settings, the decisions of each agent can affect the utilities/losses of the other agents. Therefore

发现论文，激发创造

具有非线性动力学的多智能体强化学习算法

使用加权策略学习器（Weighted Policy Learner）算法，基于本地奖励的反馈，实现了多智能体强化学习（MARL）算法在二人二选手博弈中寻找Nash Equilibrium的能力。与之前的算法相比，WPL不需要观察其他智能体动作和奖励，也不需要预先了解博弈本质和NE解，收敛表现优于现有的算法，并且在100个智能体交互中并行收敛。通过对WPL的动力学分析，可以更好地理解该算法的行为，分析WPL的收敛性比较困难，需要数值模拟求解动力学微分方程来验证其收敛性。

Jan, 2014

博弈中的学习: 快速收敛的稳健性

本论文证明具有低拟近似遗憾性质的学习算法在大类重复博弈中具有快速收敛到近似最优解的能力，包括使用基本对冲算法的算法。此外，作者对之前的结果进行了优化，并将该框架应用于动态人口博弈，并在大小和时间复杂度方面取得了改进。作者还提出了一种新的算法用于泊松回报任务，在效率和小损失方面都更有吸引力。

Jun, 2016

零和博弈中快速且强烈学习：在非消失步长时消失后悔

我们展示了一种称为"Fast and Furious"的学习方法，使得在二人零和博弈中时间平均遗憾减少且步长不为零成为可能，此学习方法为最小化-最大化优化和多智能体系统中的研究提供了新的标杆，即使是在最简单的情况下，我们的研究证明该方法的遗憾界限为$\Theta(\sqrt{T})$，在学习率固定的情况下也会稳定收敛于确切的纳什均衡价值。

May, 2019

进化博弈理论平方：自发演化的零和博弈中的进化代理

本文研究了一类竞争场景，其中代理和它们玩的游戏都在时间上演化。该系统中的信息论保存定律、泊松回归和 Nash 均衡特征表明，尽管代理和游戏共同演化，但其结果仍然遵循一定的规律。同时，针对这种共同演化的网络游戏提出了预测代理行为的多项式时间算法。

Dec, 2020

多智能体竞赛中的探索-利用：有界理性下的收敛

通过研究充分考虑游戏奖励和探索成本平衡的原型学习模型Q-learning，我们证明在使用积极探索率的具有异质性学习代理的权重零和多元矩阵游戏中，Q-learning总是收敛于唯一的量刑-反应均衡（QRE），这是有界理性下游戏的标准解决方案概念，并展示了 Q-learning 在竞争环境中的快速收敛性，而无需任何参数微调，在竞争多代理环境中的均衡选择问题提供了算法所需的保证。

Jun, 2021

对抗无悔玩家

研究使用无遗憾算法在正态形式重复的N人博弈中，如何让人类玩家获得最大化效用，引入Stackelberg均衡和相关Stackelberg均衡的概念，证明玩家能够在每个回合至少保证相关Stackelberg期望值的效用。

Feb, 2022

马尔可夫潜在博弈中的独立和去中心化学习

该论文提出了一种多智能体强化学习动态模型，分析了其在无限期贴现马尔可夫潜在博弈中的收敛性质。论文在独立和分散的环境下进行，重点研究了多智能体可以通过简单的学习动态方法在最小信息环境下达到马尔可夫潜在博弈的稳定纳什均衡。

May, 2022

多智体决策的复杂性：从博弈中的学习到部分监控

本文研究了多智能体强化学习中的样本效率、均衡计算和统计复杂性等问题，提出了一系列新的结构性结果，并阐述了决策时附带隐藏报酬的统计复杂度。

May, 2023

游戏学习对学习者是否有益？

研究了两个智能体在重复对局中报酬和悔恨之间的权衡，提出了一种广义均衡概念，讨论了不同对手情况下的最优战略和可行方案，探究了利用这种广义均衡学习最优策略的方法。

May, 2023

分散学习对斯塔克尔贝格博弈中玩家效用的影响

探讨了两个学习代理（如推荐系统或聊天机器人）相互交流并独立学习的情况下，每个代理的目标和效用如何受到影响，并提出了一种宽容于小学习误差的放松后的后悔基准，以及相应的学习算法，实现了接近最优水平的后悔率。

Feb, 2024