游戏中的混沌、极端主义和乐观主义:学习的量化分析
通过一种启发式的学习方案,我们派生出了一种由惩罚项调整的复制者漂移的新类连续时间学习动态,这种惩罚调节的动态相当于玩家保留他们正在进行的回报的指数折扣总和,然后基于这些表现分数使用平滑最佳响应选择行动。借助这种内在的对偶,所提出的动态满足一种进化博弈理论的民间定理的变体,并且它们以(任意精度的)纳什均衡的逼近收敛于潜在游戏。受到交通工程应用的启发,我们进一步利用这种对偶来设计离散时间的,基于回报的学习算法,该算法具有这些收敛性质,并且仅需要玩家观察他们在游戏中的回报
Mar, 2013
本文提出了一个几何框架来制定零和博弈中的智能体目标,以构建产生开放式学习的自适应目标序列,从而产生比现有算法更强的智能体集合。我们将PSRO_rN应用于两个高度非传递性的资源分配游戏,并发现PSRO_rN始终优于现有替代方案。
Jan, 2019
研究了多智能体系统和哈密顿动力学之间的联系,无论网络结构、复杂性以及使用的算法,都可以将零和网络博弈中的收敛动态映射到哈密顿动力学中。此外,该方法可以将在线优化,凸分析,博弈论和物理学之间的结果和方法进行互相转化。
Mar, 2019
我们展示了一种称为"Fast and Furious"的学习方法,使得在二人零和博弈中时间平均遗憾减少且步长不为零成为可能,此学习方法为最小化-最大化优化和多智能体系统中的研究提供了新的标杆,即使是在最简单的情况下,我们的研究证明该方法的遗憾界限为$\Theta(\sqrt{T})$,在学习率固定的情况下也会稳定收敛于确切的纳什均衡价值。
May, 2019
本文研究了一类竞争场景,其中代理和它们玩的游戏都在时间上演化。该系统中的信息论保存定律、泊松回归和 Nash 均衡特征表明,尽管代理和游戏共同演化,但其结果仍然遵循一定的规律。同时,针对这种共同演化的网络游戏提出了预测代理行为的多项式时间算法。
Dec, 2020
本研究介绍了一种新的以学习系数的增量式更新规则为主要方法的强化学习策略,该策略依据游戏的本质——游戏签名进行调整,用于学习在游戏中达到最优状态的方法,其中游戏的多个方面分解成具有交换性的投影算子,介绍了一个新的算法CMWU,在零和双矩阵游戏中具有局部收敛的保证。
Jun, 2021
通过研究正则化的无悔学习方法在有限游戏中的长期行为,我们发现玩家的实际策略如何随时间演变的理解非常有限,同时发现只有严格纳什均衡是稳定吸引的,进而揭示了玩家的日常对策的集合有理性的特性。我们进一步刻画了相应集合的稳定和收敛速率,并表明基于熵正则化的方法以几何速度收敛,而基于投影的方法在有限次迭代内收敛,即使是在带有被动反馈的并发奖励的情况下。
Nov, 2023
基于Riemannian框架和Shahshahani度量,在无悔学习中研究了复杂动力学的分解,发现无悔动力学在体积保持和收敛性方面具有特殊特征,并与潜势和谐波分解存在深层关联。
May, 2024
通过在线学习的自我对弈是解决大规模两人零和游戏的主要方法之一,尤其流行的算法包括乐观的乘积权重更新(OMWU)和乐观的梯度下降-梯度上升(OGDA),本文证明了OMWU存在潜在的较慢的最后迭代收敛问题。
Jun, 2024
本研究针对游戏动态的极限行为展开,填补了现有理论的空白。通过对“噪声复制器动态”这一自然动态的计算,本研究提供了一种高效的方法来估计游戏的沉没均衡的极限分布。主要发现表明,在优先分布为纯策略支撑时,可以在接近线性时间内高效计算该分布,且通过模拟实验,甚至能较准确地估计大型游戏的极限分布。
Aug, 2024