该研究考虑了单人和多人多臂老虎机模型的学习问题,提出了两种可分散策略,即E³ (立方)和E³-TS,它们显示出预期遗憾增长的上限为O(log^(1+ε)T),并解决了分散的在线学习所产生的附加成本问题。
May, 2015
我们展示了一种称为"Fast and Furious"的学习方法,使得在二人零和博弈中时间平均遗憾减少且步长不为零成为可能,此学习方法为最小化-最大化优化和多智能体系统中的研究提供了新的标杆,即使是在最简单的情况下,我们的研究证明该方法的遗憾界限为$\Theta(\sqrt{T})$,在学习率固定的情况下也会稳定收敛于确切的纳什均衡价值。
May, 2019
该研究针对两侧市场匹配问题,通过引入一种新算法,提高了在分散式多人选手竞争、无优先认知偏好和与偏好相关猜测等场景下博弈的结果鲁棒性。
Dec, 2020
研究使用无遗憾算法在正态形式重复的N人博弈中,如何让人类玩家获得最大化效用,引入Stackelberg均衡和相关Stackelberg均衡的概念,证明玩家能够在每个回合至少保证相关Stackelberg期望值的效用。
Feb, 2022
本文介绍了一个针对零和博弈中基于无限目标平均报酬的分散式学习的无模型算法,称为Decentralized Optimistic Nash Q-Learning(DONQ-learning),该算法能够获得$T^{3/4}$阶数的高概率次线性遗憾和$T^{2/3}$阶数的次线性期望遗憾。与以往的相关工作相比,该算法具有低计算复杂度和低内存空间要求。
Jan, 2023
研究了两个智能体在重复对局中报酬和悔恨之间的权衡,提出了一种广义均衡概念,讨论了不同对手情况下的最优战略和可行方案,探究了利用这种广义均衡学习最优策略的方法。
May, 2023
Stackelberg博弈是算法博弈论的一个重要应用,通过引入附加信息和在线设置,可以实现无遗憾学习。
Feb, 2024
我们研究了分布式和策略性在线学习问题,通过对不完全信息和附加信息两种不同情境进行研究,发现追随者在有限信息情境中按照局部最优策略响应领导者的行动,然而在附加信息情境中,追随者可以通过策略性行动操控领导者的奖励信号,以使得领导者的策略收敛到对自己更有利的均衡状态。基于这些洞察,我们针对这两种情境研究了分布式在线学习,主要贡献是提出了最后迭代收敛和样本复杂度方面的结果。尤其值得注意的是,我们设计了一种新的操控策略,用于处理附加信息情境,并证明它相对于最优应对策略具有内在优势。我们的理论结果也得到了实证结果的支持。
May, 2024
本研究解决了在无悔追随者约束下,两人Stackelberg博弈中玩家能否达到Stackelberg均衡的问题。我们提出了当追随者策略为奖励平均或变换奖励平均时,两位玩家总能实现均衡,并进一步证明无悔约束下的均衡与追随者效用差异的严格上限。这表明在常和两人Stackelberg博弈中,保持无悔行动序列可以维持总最优效用的边界。
Aug, 2024
本研究针对在动态和不确定的社会系统中,多代理间异质效用交互的去中心化学习算法设计与分析存在的空白,提出一种基于马尔可夫近势函数(MNPF)的新方法,以保证算法能够收敛到近似纳什均衡。研究表明,该方法能有效应对多代理系统中的学习收敛问题,并提供新的视角来分析去中心化算法的设计。
Sep, 2024