何时才能高效学习具有多个玩家的广义和马尔可夫博弈?
本文针对多智能体马尔科夫博弈提出了一种基于模型的算法Nash-VI,在理论上证明其具有较高的样本利用率,并且在实验中证明了其优于现有的基于模型的方法和一些基于无模型的算法,输出单个Markov策略且易于存储和执行。
Oct, 2020
在嘈杂的赌徒反馈环境中,理论研究了 Stackelberg 均衡的样本有效学习,识别了 Stackelberg 均衡真实值与使用有限噪声样本估计版本之间的基本差距,并建立了与其相匹配的下限。
Feb, 2021
本文提出了一种多智能体强化学习算法,可以在一般和马尔可夫博弈中学习到一个粗略的相关均衡策略,并且算法是完全分散的,智能体只有本地信息,并不知道其他智能体的存在。
Oct, 2021
本文研究了Markov粗粒度关联均衡问题的计算复杂性及其在多智能体强化学习中的应用,发现当多智能体交互为回合制、折扣因子和粗略程度为常数时,计算近似的Markov粗粒度关联均衡策略属于NP难问题,但是提供了在多智能体中非稳定Markov CCE策略的学习解决方案。
Apr, 2022
本文研究了多智能体强化学习在部分可观察性下的挑战性任务,其中每个智能体只能看到自己的观察和动作。我们通过考虑广义模型的部分可观察马尔科夫博弈,证明了一个富裕的子类可以使用样本高效的学习方法,从而找到弱显式部分可观察马尔科夫博弈的近似纳什均衡、相关均衡以及粗略相关均衡,当代理数量很小时可在多项式样本复杂度内学得。
Jun, 2022
本文提出了第一种高效算法用于学习通过较粗的相关均衡(CCE)和相关均衡(CE)合理化行为的多智能体学习,这些算法的样本复杂度与所有问题参数(包括玩家数量)的多项式成正比,同时还开发了一种新的高效算法来找到一个合理化的行动规划(不一定是均衡),该算法的样本复杂度显著优于现有结果。算法采用了几种新技术来同时保证理性和无择性遗憾,包括相关探索方案和自适应学习速率。
Oct, 2022
我们提出了一种新模型独立线性马尔可夫游戏,用于具有大状态空间和大量代理的多代理强化学习,该模型具有独立线性函数逼近,并为其设计了新算法以学习Markov粗糙关联均衡和Markov相关均衡,其采样复杂度只随着每个代理自己的函数类复杂度以多项式方式扩展,从而打破了多代理的诅咒。
Feb, 2023
我们研究了多智能体强化学习(MARL)在一般和马尔可夫博弈(MG)下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量,即多智能体解耦系数(MADC),我们旨在找到基于样本高效学习的最小假设。利用该度量,我们提出了首个统一的算法框架,可以在低MADC的情况下保证在模型为基础和模型无关的MARL问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外,我们还展示了与现有工作相比,我们的算法提供了可比较的次线性遗憾。此外,我们的算法结合了一个均衡求解器和一个单一目标优化次程序,用于求解每个确定性联合策略的正则化收益,从而避免在数据相关的约束条件下求解约束优化问题(Jin et al. 2020; Wang et al. 2023),或在复杂的多目标优化问题(Foster et al. 2023)中执行抽样过程,因此更适合于实证实现。
Oct, 2023
使用乐观跟随正则化领导者算法结合适当的价值更新过程,在全信息一般和马尔可夫博弈中找到近似于O(T^-1)粗糙相关均衡。
Feb, 2024
该研究设计和分析了一组基于信息导向采样(IDS)原则的新型多智能体强化学习(MARL)算法,这些算法受到信息论基础概念的启发,在两人零和马尔可夫博弈和多人一般和博弈等MARL环境中被证明具有高样本效率。
Apr, 2024