正则化学习下游戏中动态稳定性和战略稳定性的等效性
通过一种启发式的学习方案,我们派生出了一种由惩罚项调整的复制者漂移的新类连续时间学习动态,这种惩罚调节的动态相当于玩家保留他们正在进行的回报的指数折扣总和,然后基于这些表现分数使用平滑最佳响应选择行动。借助这种内在的对偶,所提出的动态满足一种进化博弈理论的民间定理的变体,并且它们以(任意精度的)纳什均衡的逼近收敛于潜在游戏。受到交通工程应用的启发,我们进一步利用这种对偶来设计离散时间的,基于回报的学习算法,该算法具有这些收敛性质,并且仅需要玩家观察他们在游戏中的回报
Mar, 2013
通过采用具有一种新颖形式的经验回忆的正则化学习算法,我们表明,在多人博弈的普通形式中,该类自适应算法能够实现更快的收敛速率,并实现对近似效率和粗略相关均衡的收敛,并且,对这种类型算法应用的每个玩家,他们的个体后悔降至$O(T^{-3/4})$,而其效用之和则以$O(T^{-1})$的速度趋于近似最优,在与该类算法相对应的算法维持更快的速率的同时,我们还表明了该类中的任何算法均可通过黑匣子降至$ ilde {O}(T^{-1/2})$的速率来抵抗对手。
Jul, 2015
本论文证明具有低拟近似遗憾性质的学习算法在大类重复博弈中具有快速收敛到近似最优解的能力,包括使用基本对冲算法的算法。此外,作者对之前的结果进行了优化,并将该框架应用于动态人口博弈,并在大小和时间复杂度方面取得了改进。作者还提出了一种新的算法用于泊松回报任务,在效率和小损失方面都更有吸引力。
Jun, 2016
我们展示了一种称为"Fast and Furious"的学习方法,使得在二人零和博弈中时间平均遗憾减少且步长不为零成为可能,此学习方法为最小化-最大化优化和多智能体系统中的研究提供了新的标杆,即使是在最简单的情况下,我们的研究证明该方法的遗憾界限为$\Theta(\sqrt{T})$,在学习率固定的情况下也会稳定收敛于确切的纳什均衡价值。
May, 2019
本文研究了no-regret动力学中最常被考虑的动态系统之一 - Follow-the-regularized-leader的行为,证明了非严格的纳什均衡对于no-regret学习是不稳定的且不能吸引该动态系统的稳定状态,因此只有严格的纳什均衡是no-regret动力学的稳定限制点。
Oct, 2020
本文研究了在完备回忆且n个玩家泛化和值和的博弈中,如何从简单无耦合的后悔最小化学习动力学中导出EFCE。研究结果提供了第一个收敛于EFCE的无耦合动力学,为该领域解决了开放性问题。
Apr, 2021
本文提出了一种基于乐观的镜像下降的无悔策略算法,可以在非稳态环境下实现O(sqrt(T))的后悔度,并可在变分稳定游戏中收敛到纳什均衡。
Apr, 2021
通过控制理论中能量守恒的概念,将在线优化与游戏学习结合起来,证明了所有连续时间的Follow-the-Regularized-Leader动态都是无损耗的,这启发我们构建了一族具有简单梯度结构的无损耗学习动态,并将其拓展到了图形常和游戏等多种游戏动力学中。
Jun, 2021
通过利用Tsallis熵正则化的值迭代方法,我们提出了一种合理且收敛的算法,在弱条件下以无耦合和单时间尺度算法的方式高效地实现了近似纳什均衡。该算法在多项式时间内学习近似纳什均衡,仅需要存在一个诱导不可约和非周期性马尔可夫链的策略对,从而明显减弱了过去的假设。我们的分析利用了负漂移不等式,并引入了Tsallis熵的新特性,这些特性具有独立的研究价值。
Dec, 2023
本研究解决了在自适应对手下的马尔可夫博弈中学习的挑战,填补了现有研究对适应性对手的策略后悔关注不足的空白。提出了一种新的政策后悔概念,展示了在特定条件下(如记忆限制下的一致对手)可以实现高效学习。主要发现显示在这些条件下,算法能够在对手存在时有效降低策略后悔。
Nov, 2024