随机博弈中的马尔科夫均衡复杂性
本文探讨了多人博弈中学习的样本复杂性问题, 并设计算法在样本复杂度多项式级别下, 求解多人一般和马尔可夫博弈的粗略关联均衡和关联均衡, 同时提出了针对特定条件下的学习算法, 显著提高了现有算法的效率和精度。
Oct, 2021
本文提出了一种多智能体强化学习算法,可以在一般和马尔可夫博弈中学习到一个粗略的相关均衡策略,并且算法是完全分散的,智能体只有本地信息,并不知道其他智能体的存在。
Oct, 2021
本文研究策略梯度方法在Markov潜在博弈多智能体强化学习问题上的全局非渐进收敛性质,提出新的独立策略梯度算法,证明算法达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2),并在利用函数逼近的样本算法中,建立了样本复杂度为O(1/epsilon^5)的界限。同时,还找到了一类独立策略梯度算法,可在玩家对游戏类型无感知的情况下,实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。
Feb, 2022
本文提出了一种基于OMWU方法的单环路政策优化算法,并在二人零和马尔可夫博弈中,通过控制正则化的程度,实现了有限时间的最后一次线性收敛到达量子响应均衡点,并在全信息离散设置中实现了收敛结果。
Oct, 2022
本文提出了第一种高效算法用于学习通过较粗的相关均衡(CCE)和相关均衡(CE)合理化行为的多智能体学习,这些算法的样本复杂度与所有问题参数(包括玩家数量)的多项式成正比,同时还开发了一种新的高效算法来找到一个合理化的行动规划(不一定是均衡),该算法的样本复杂度显著优于现有结果。算法采用了几种新技术来同时保证理性和无择性遗憾,包括相关探索方案和自适应学习速率。
Oct, 2022
我们提出了一种新模型独立线性马尔可夫游戏,用于具有大状态空间和大量代理的多代理强化学习,该模型具有独立线性函数逼近,并为其设计了新算法以学习Markov粗糙关联均衡和Markov相关均衡,其采样复杂度只随着每个代理自己的函数类复杂度以多项式方式扩展,从而打破了多代理的诅咒。
Feb, 2023
本文研究了去中心化多智能体强化学习问题中的不后悔算法,并探讨了自主学习能否在标准Markov博弈框架中实现无后悔学习。结果表明,无论是已知还是未知的博弈,该问题都无法以多项式时间实现无后悔学习,该文贡献了理论证明支持,提出了基于集聚方法的创新性应用,并发现了SparseCCE问题的下限,从而说明了近年来学者对于该问题的研究成果,并对博弈理论和强化学习算法研究方向提出了新的思考。
Mar, 2023
在这篇论文中,我们提出了一个新的框架来描述多人Markov游戏中的乐观策略梯度方法,在单个控制器下收敛到稳定的ε-NE,其收敛速度为O(1/ε^2)次迭代,该框架基于对经典Minty性质的自然推广,我们相信它在Markov游戏之外也有进一步的应用。
Dec, 2023
使用乐观跟随正则化领导者算法结合适当的价值更新过程,在全信息一般和马尔可夫博弈中找到近似于O(T^-1)粗糙相关均衡。
Feb, 2024
学习大状态和动作空间中的均衡、克服多项机构所带来的麻烦是一个具有挑战性的问题,最近的研究尝试通过使用独立的线性函数类来逼近每个代理的边际Q值来解决这个问题。我们介绍了一种新算法Lin-Confident-FTRL,用于学习具有本地对模拟器访问能力的粗粒度相关均衡(CCE),并具有证明最优准确性界限O(ϵ^-2)的可扩展性和抛弃了对动作空间的线性依赖。此外,我们对Linear-Confident-FTRL的分析广泛地推广了单机器人局部规划文献中的虚拟策略迭代技术,从而在假设对模拟器具有随机访问权时得到了一个新的计算有效的算法,并获得了更紧凑的样本复杂度界限。
Mar, 2024