广义形式博弈中的本地化和自适应镜像下降

Sep, 2023

广义形式博弈中的本地化和自适应镜像下降

Local and adaptive mirror descents in extensive-form games

Côme Fiegel, Pierre Ménard, Tadashi Kozuno, Rémi Munos, Vianney Perchet...

TL;DR我们研究了如何在带有轨迹反馈的零和不完全信息博弈中学习 ε- 最优策略，通过应用自适应在线镜像下降算法，在信息集中使用逐渐减小的学习率和正则化损失，我们证明了该方法在高概率下能够保证收敛速度为～T^(-1/2)，并且在理论上的最佳学习率和采样策略选择时，对于游戏参数的依赖性接近最优。为了实现这些结果，我们扩展了对 OMD 稳定性的概念，允许随时间变化的凸增量正则化。

Abstract

We study how to learn $\epsilon$-optimal strategies in zero-sum imperfect information games (IIG) with trajectory feedback. In this setting, players update their policies sequentially based on their observations over a fixed number of episodes, denoted by $T$. Existing procedures suffe

zero-sum imperfect information games trajectory feedback adaptive online mirror descent algorithm convergence rate time-varying regularization

发现论文，激发创造

关于零和博弈的收敛策略探讨

本文研究了学习动态的最后迭代收敛问题，并提供了新的结果和技术，其中包括一类游戏模型及其动态下的结果，以及通过遗憾分析得到的性质，证明了具有有界二阶路径长度，而且无论玩家使用不同算法和预测机制，也能实现 O（1 /sqrt（T））的速率和最优 O（1）的后悔界。同时证明了 OMD 要么接近纳什均衡，要么在效率上优于强韧价格，最后，对一般和连续的游戏模型也进行了探讨。

Mar, 2022

可预测序列的优化、学习和游戏

提供了乐观镜面下降算法的几个应用：将其用于线下优化中的镜像近端算法、扩展到 Holder 平滑函数、并将结果应用于鞍点问题；将其用于有限零和矩阵博弈中，为两个强耦合玩家提供最小化最大值均衡的渐进速率 O ((log T)/T)；再考虑问题的部分信息版本并将结果应用于凸规划，展示了近似最大流问题的简单算法。

Nov, 2013

使用在线镜像下降方法扩展均值场博弈

本研究使用在线镜像下降法（OMD）解决均值场游戏（MFG）中均衡计算的扩展性问题，在一系列合理的单调性假设下，证明连续时间 OMD 可收敛于纳什均衡，这一理论结果良好地扩展至多人口游戏和涉及共同噪声的设置。经过全面的实验研究，OMD 优于传统算法，如虚拟游戏（FP），以前所未有的速度解决了数十亿个状态的 MFG 实例。这项研究在大规模多代理和多人口游戏的学习方面确立了最新的状态。

Feb, 2021

随机镜像下降法高效求解 MDPs

通过基于原始 - 对偶随机镜像下降的统一框架，提供了一种近似求解具有生成模型的无限时域马尔可夫决策过程，同时提出了解决双线性鞍点问题与约束 MDPs 的方法。

Aug, 2020

诚实面对：零和博弈最优非后悔框架

本文提出了针对分散式场景中双方零和博弈问题的算法，提供了最佳的诚实遗憾和对抗遗憾率，解决了收敛到游戏价值的对数项的开放问题，并通过乐观的镜像下降算法与鲁棒的乐观镜像下降算法的信号传递方案相结合，实现了最佳结果。

Feb, 2018

分布式镜面下降算法用于在线复合优化

本文提出了基于近似镜像下降的一类在线分布式优化算法，以 Bregman 距离为测量函数，包括欧几里得距离作为特例，考虑两种标准信息反馈模型，并通过在线分布式正则化线性回归问题的仿真结果验证了算法的性能。

Apr, 2020

在线镜像下降和对偶平均：在动态情况下保持步伐

本文提出了一种简单的 OMD 算法技巧 - 稳定化，以动态学习率的情况下避免 OMD 线性遗憾，通过在经典 OMD 收敛分析下进行调整来获得与 DA 相同的性能保证。

Jun, 2020

镜像下降策略优化

提出了一种称为镜像下降策略优化（Mirror Descent Policy Optimization，MDPO）的高效强化学习算法，MDPO 是一个迭代更新策略的算法，其目标函数由标准强化学习目标的线性化和一个限制连续策略之间接近的接近项组成，是由 MD 原则推导而来的，同时通过采取多个梯度步骤进行逼近。

May, 2020

稀疏 Q 学习和镜像下降

该论文探讨了基于在线凸优化的强化学习的新框架，特别是镜像下降及相关算法，提出了一种新的类似于梯度下降的迭代方法。其中，基于不同 Bregman 散度的抛物线梯度强化学习法比常规 TD 学习更为普适。还提出了一种新型的稀疏镜像下降强化学习方法，相比之前基于二阶矩阵方法的方法，在寻找一个 l1 正则化 Bellman 方程的稀疏不动点时具有显著的计算优势。

Oct, 2012

同伦策略镜像下降：策略收敛，隐含正规化和改进样本复杂度

提出了一种新的策略梯度方法 —— 同伦策略镜像下降 (HPMD)，用于解决具有有限状态和动作空间的折扣、无限时间 MDPs，并具有多种计算性质。该方法在全局和局部上均具有收敛性，并且能够在一定条件下证明和表征极限策略。同时，使用该方法可同时获得非渐近最优策略和极大信息熵的极限策略，在不同 Bregman 散度之间进行扩展，以及是一些常见 Bregman 散度的有限时间精确收敛。

Jan, 2022