对抗对手下的学习马尔科夫博弈:高效算法与基本极限
本文提出了一种名为“Exploitability Descent”的新算法,通过直接针对最坏情况的对手进行策略优化,计算具有不完全信息的两人零和博弈的近似均衡。我们证明,当遵循此优化时,玩家策略的可利用性会渐近地收敛于零,因此当两个玩家同时使用此优化时,联合策略会收敛于纳什均衡。与虚拟实现(XFP)和反事实后悔(CFR)不同,我们的收敛结果涉及到被优化的策略而不是平均策略。我们的实验在纸面上就达到了XFP和CFR相当的收敛速率,利用函数逼近,我们发现我们的算法在两个游戏中优于纸面情况,这是在此类算法中不完全信息游戏中的首个结果。
Mar, 2019
我们展示了一种称为"Fast and Furious"的学习方法,使得在二人零和博弈中时间平均遗憾减少且步长不为零成为可能,此学习方法为最小化-最大化优化和多智能体系统中的研究提供了新的标杆,即使是在最简单的情况下,我们的研究证明该方法的遗憾界限为$\Theta(\sqrt{T})$,在学习率固定的情况下也会稳定收敛于确切的纳什均衡价值。
May, 2019
本研究针对具有线性结构的两人零和有限马尔可夫博弈提出了一种基于乐观价值迭代的增强学习算法,该算法通过构建价值函数的上下置信区间,并用 Coarse Correlated Equilibrium 求解泛化和纳什均衡问题,实现了性能的总时间平方根复杂度的上限。
Feb, 2020
本文提出了楽观的Nash Q-learning算法,并使用了新的Nash V-learning算法,解决了在马尔可夫博弈环境中的奖励学习优化问题,且这个算法的采样复杂度比现有算法还要低.
Jun, 2020
本研究在多智能体竞争的环境下对零和结构化Markov博弈问题的策略优化算法进行了提出和分析,考虑通过上置界乐观算法与虚拟博弈相结合的同时策略优化,从而使双方智能体的总体最优性差距以$\widetilde{O}(\sqrt{K})$的速度收敛,其中$K$为回合数量。
Jul, 2022
简而言之,本文提出了一种针对广义和博弈的、分散、计算高效的算法,其保证所有代理都使用时可以提供次线性遗憾保证,并且不需要代理之间的通信。该算法的主要观察结果是,通过马尔可夫游戏的在线学习基本上可以归结为一种加权遗憾最小化。
Jul, 2022
本文研究多人随机博弈中同时学习的问题,通过生成算法获得相关均衡,包括 extensive-form correlated equilibrium 和普通 coarse correlated equilbrium,并提供了一些能够多项式时间内解决的特殊情况。
Oct, 2022
本文研究了去中心化多智能体强化学习问题中的不后悔算法,并探讨了自主学习能否在标准Markov博弈框架中实现无后悔学习。结果表明,无论是已知还是未知的博弈,该问题都无法以多项式时间实现无后悔学习,该文贡献了理论证明支持,提出了基于集聚方法的创新性应用,并发现了SparseCCE问题的下限,从而说明了近年来学者对于该问题的研究成果,并对博弈理论和强化学习算法研究方向提出了新的思考。
Mar, 2023
通过利用Tsallis熵正则化的值迭代方法,我们提出了一种合理且收敛的算法,在弱条件下以无耦合和单时间尺度算法的方式高效地实现了近似纳什均衡。该算法在多项式时间内学习近似纳什均衡,仅需要存在一个诱导不可约和非周期性马尔可夫链的策略对,从而明显减弱了过去的假设。我们的分析利用了负漂移不等式,并引入了Tsallis熵的新特性,这些特性具有独立的研究价值。
Dec, 2023
本研究解决了在自适应对手下的马尔可夫博弈中学习的挑战,填补了现有研究对适应性对手的策略后悔关注不足的空白。提出了一种新的政策后悔概念,展示了在特定条件下(如记忆限制下的一致对手)可以实现高效学习。主要发现显示在这些条件下,算法能够在对手存在时有效降低策略后悔。
Nov, 2024