驯服指数级行动集：在在线拥塞博弈中实现次线性遗憾和快速收敛到纳什均衡

Jun, 2023

驯服指数级行动集：在在线拥塞博弈中实现次线性遗憾和快速收敛到纳什均衡

Taming the Exponential Action Set: Sublinear Regret and Fast Convergence to Nash Equilibrium in Online Congestion Games

Jing Dong, Jingyu Wu, Siwei Wang, Baoxiang Wang, Wei Chen

TL;DR本研究通过提出 CongestEXP 算法来解决在线拥塞博弈问题，通过在设施级别上维护权重，创新性地规避了指数级依赖于可能的设施集合大小的遗憾界，并且适用于任何个体玩家，并在存在严格纳什均衡时，能以近似指数速度收敛至纳什策略。

Abstract

The congestion game is a powerful model that encompasses a range of engineering systems such as traffic networks and resource allocation. It describes the behavior of a group of agents who share a common set of $F$ facilities and take actions as subsets with $k$ facilities. In this wor

congestion game online formulation regret bound exponential weights method nash equilibrium

发现论文，激发创造

指数权重算法的游戏

本研究研究了具有恒定学习率的指数权重算法的最后迭代收敛性质，通过在离散时间中考虑重复互动，每个参与者使用一个具有初始混合行动和固定学习率的指数权重算法，以使在时间 t 处开始播放的混合行动概率为 $p^t$，遵循齐次马尔科夫链。首先，我们证明了在存在严格纳什均衡时，播放下一阶段的严格纳什均衡的概率几乎必定收敛于 0 或 1。其次，我们证明了 $p^t$ 的极限（如果存在）属于 “具有均等化收益的纳什均衡集合”。第三，我们证明在强协调博弈中，其中玩家的收益在对角线上是正数，在其他地方为 0，$p^t$ 几乎必定收敛于其中一个严格纳什均衡。最后，我们提出了一些开放性问题。

Jul, 2024

拓扑博弈中纳什均衡的复杂性问题

在拥堵博弈中找到 (可能的混合) 纳什均衡和在平滑函数的梯度下降动力学中找到指数精度的不动点两问题等价，由此得到复杂性类的等价性 CCLS = PPAD∩PLS。

Dec, 2020

离线强化学习遗憾的快速速率

本文研究了从固定行为策略生成的线下数据中学习无限时间折扣马尔可夫决策过程中的后悔问题，分析了 $Q$-iteration（FQI）等常见方法的后悔收敛速度，并提供了较快的收敛率。其中，一种可行的方法是根据最优质量函数的任何估计，定义的策略的后悔以指数形式收敛于 $Q^*$ ，使其加速；同时，建立了这种噪声水平在线性和表形 MDP 中的应用。

Jan, 2021

连续博弈中的自适应学习：最优遗憾边界和纳什均衡收敛

本文提出了一种基于乐观的镜像下降的无悔策略算法，可以在非稳态环境下实现 O (sqrt (T)) 的后悔度，并可在变分稳定游戏中收敛到纳什均衡。

Apr, 2021

一种连续时间的在线优化方法

研究一种基于连续时间的在线优化策略族，证明其能够达到无遗憾学习。从传统的离散时间角度来看，这种方法可导出大量离散时间算法（包括一些经典遗憾分析算法）的无遗憾性质，并统一了许多经典的遗憾上界，得到了一个无需借助于倍增技巧即可保证 $O (n^{-1/2})$ 遗憾上界的学习策略类。

Jan, 2014

乐观无悔动力加速

本论文研究了如何利用在线学习动态算法来求解具有 Nash 均衡约束的凸凹博弈问题，通过引入乐观学习机制使得该方法求解速度得到了显著提升，同时还证明了在强凸平滑函数的情况下该方法的加速收敛性。

Jul, 2018

线性赌博机高效高概率算法

针对线性赌博问题，通过对算法 CombEXP 的分析，我们扩展了其适用范围至允许任意聚合体的自适应对手情形，证明了当时间边界 T 满足 O (T^(2/3)) 时的高概率后悔率，该算法强于 GeometricHedge 且具有计算效率，只需要对凸包上的线性优化即可。

Oct, 2016

非随机赌博机中的延迟与合作

研究了协作解决普通非随机赌博问题的学习代理通信网络，介绍了 extsc {Exp3-Coop} 算法并证明了该算法的最大后悔度界限。

Feb, 2016

博弈中的学习：快速收敛的稳健性

本论文证明具有低拟近似遗憾性质的学习算法在大类重复博弈中具有快速收敛到近似最优解的能力，包括使用基本对冲算法的算法。此外，作者对之前的结果进行了优化，并将该框架应用于动态人口博弈，并在大小和时间复杂度方面取得了改进。作者还提出了一种新的算法用于泊松回报任务，在效率和小损失方面都更有吸引力。

Jun, 2016

学习控制未知强单调博弈

我们提出了一种简单的算法，通过在线调整受控系数来学习将博弈的纳什均衡点转移到符合线性约束，而不需要知道奖励函数或行动集，从而提供具有概率 1 保证的收敛性以满足目标线性约束的纳什均衡集合，并为该算法提供了均方收敛速度为 O (t^{-1/4}) 的界限。我们演示了该算法在全局二次代价优化和资源分配博弈中实现负载平衡的应用场景的模拟结果。

Jun, 2024