正规形式博弈中后悔最小化的计算下界
使用 CFR 框架开发算法以解决行为约束的 extensive-form games,同时计算近似 Nash 平衡改进。比标准算法更好,收敛速率与最先进的 Nash 平衡计算算法相当。
Nov, 2017
研究了在广泛形式博弈中最小化后悔和计算纳什均衡的乐观后悔最小化算法的性能,研究了扩展形式游戏距离生成函数的使用,证明了扩展欧几里德距离函数具有广义树片段的强凸性参数的第一个显式边界,提出了一种乐观算法可以优化计算效率,这在最小化后悔而不是计算纳什均衡时表现出很好的结果。
Oct, 2019
提出了新的技术,将DFG的技术用于解决内部遗憾和交换遗憾,从而使得多人游戏中的学习动态能够收敛到近似相关均衡,同时分析了Blum和Mansour算法中的近似最优遗憾保证。
Nov, 2021
本文研究多人随机博弈中同时学习的问题,通过生成算法获得相关均衡,包括 extensive-form correlated equilibrium 和普通 coarse correlated equilbrium,并提供了一些能够多项式时间内解决的特殊情况。
Oct, 2022
本文研究了去中心化多智能体强化学习问题中的不后悔算法,并探讨了自主学习能否在标准Markov博弈框架中实现无后悔学习。结果表明,无论是已知还是未知的博弈,该问题都无法以多项式时间实现无后悔学习,该文贡献了理论证明支持,提出了基于集聚方法的创新性应用,并发现了SparseCCE问题的下限,从而说明了近年来学者对于该问题的研究成果,并对博弈理论和强化学习算法研究方向提出了新的思考。
Mar, 2023
本文探讨了贝叶斯博弈的均衡概念,包括相关均衡、通信均衡,推导出基于均衡对策的博弈稳定状态的实现方法,提出一种满足稳定、高效、优化多个博弈均衡的新均衡概念。
Apr, 2023
本文提出了一个简单而计算高效的算法,能够在多项对数轮内获得ε T-swap遗憾,这在与现有算法相比的超线性轮次要求下,是一种指数级的改进,并解决了“Blum and Mansour 2007”中的主要未解决问题。同时该算法对ε有指数级依赖,但我们证明了一个新的,相匹配的下界。
Oct, 2023
我们提供了一种新颖的从交换后悔最小化到外部后悔最小化的约简方法,该方法改进了Blum-Mansour和Stolz-Lugosi的经典约简,不需要动作空间的有限性。我们的结果表明,只要存在某个假设类的无外部后悔算法,同样必然存在该类别的无交换后悔算法。对于使用专家建议的学习问题,我们的结果表明,在log(N)^{O(1/ε)}轮迭代中并且每次迭代的复杂度为O(N),可以保证交换后悔受到ε的约束,而Blum-Mansour和Stolz-Lugosi的经典约简则需要O(N/ε^2)轮迭代和至少Ω(N^2)的复杂度。我们的结果还带有一个相关的下界,与[BM07]中的下界相反,该下界适用于具有遗忘性和限制的κ1的对手和学习者,以及可以使用专家分布的情况,从而说明轮数必须是Ω(N/ε^2)或以指数的方式与1/ε成反比。我们的约简意味着,如果在某个游戏中可以进行无后悔学习,那么该游戏必须具有近似的相关均衡,具有任意好的近似程度。这加强了无后悔学习所暗示的粗略相互相关均衡的存在。重要的是,它提供了一种存在相关均衡的充分条件,大大扩展了行动集有限的要求,从而回答了[DG22; Ass+23]中未解决的问题。此外,它还回答了关于均衡计算和/或游戏学习的几个未解决问题。
Oct, 2023
使用乐观跟随正则化领导者算法结合适当的价值更新过程,在全信息一般和马尔可夫博弈中找到近似于O(T^-1)粗糙相关均衡。
Feb, 2024
本研究针对在无悔学习中如何达到均衡的问题,提出了对两人(一般总和)博弈中计算下界的首次探讨,强调了所需迭代次数。研究者通过证明计算近似最优 $T$ 稀疏协调均衡的下界,从而限制了无悔学习的迭代复杂性,并表明最大团的不可近似性阻碍了在多项式时间内实现任何非平凡稀疏化的可能性。
Nov, 2024