本文提出了一种简单有效的分层信息结构用于多智能体强化学习中的多臂赌博机和马尔可夫决策过程问题,以求克服智能体间的信息不对称带来的挑战,并给出了相应的近似最优的遗憾界。
Nov, 2021
本文探究了基于模型的强化学习算法在多智能体环境中的样本复杂度,通过两人零和马尔科夫博弈问题的研究发现,此种算法的样本复杂度为大 O (SA(1-γ)-3ε-2), 优于其他方法,但其依赖于动作空间大小,存在一定局限性。
Jul, 2020
本文提出了一种基于 OMWU 方法的单环路政策优化算法,并在二人零和马尔可夫博弈中,通过控制正则化的程度,实现了有限时间的最后一次线性收敛到达量子响应均衡点,并在全信息离散设置中实现了收敛结果。
Oct, 2022
本文提出了楽观的 Nash Q-learning 算法,并使用了新的 Nash V-learning 算法,解决了在马尔可夫博弈环境中的奖励学习优化问题,且这个算法的采样复杂度比现有算法还要低.
Jun, 2020
本文研究了多智能体强化学习中的样本效率、均衡计算和统计复杂性等问题,提出了一系列新的结构性结果,并阐述了决策时附带隐藏报酬的统计复杂度。
May, 2023
本文针对多智能体强化学习算法在代理数目增多时出现的采样复杂度指数级增长的现象,提出了一些去中心化的学习算法,并在几个关键的方面上做了优化,同时通过数值仿真验证我们理论的有效性。
Oct, 2021
本文研究了多智能体强化学习在部分可观察性下的挑战性任务,其中每个智能体只能看到自己的观察和动作。我们通过考虑广义模型的部分可观察马尔科夫博弈,证明了一个富裕的子类可以使用样本高效的学习方法,从而找到弱显式部分可观察马尔科夫博弈的近似纳什均衡、相关均衡以及粗略相关均衡,当代理数量很小时可在多项式样本复杂度内学得。
Jun, 2022
我们研究了多智能体强化学习 (MARL) 在一般和马尔可夫博弈 (MG) 下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量,即多智能体解耦系数 (MADC),我们旨在找到基于样本高效学习的最小假设。利用该度量,我们提出了首个统一的算法框架,可以在低 MADC 的情况下保证在模型为基础和模型无关的 MARL 问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外,我们还展示了与现有工作相比,我们的算法提供了可比较的次线性遗憾。此外,我们的算法结合了一个均衡求解器和一个单一目标优化次程序,用于求解每个确定性联合策略的正则化收益,从而避免在数据相关的约束条件下求解约束优化问题 (Jin et al. 2020; Wang et al. 2023),或在复杂的多目标优化问题 (Foster et al. 2023) 中执行抽样过程,因此更适合于实证实现。
Oct, 2023
本研究在非协调控制下,针对无限期、折现、零和马尔可夫博弈中的多智能体强化学习进行了研究。提出了一种无限期 Q 学习动态,该学习动态在没有集中控制器的情况下收敛到 Nash 均衡点,并且可以有效应对非固定环境的挑战。
Jun, 2021
本文针对多智能体马尔科夫博弈提出了一种基于模型的算法 Nash-VI,在理论上证明其具有较高的样本利用率,并且在实验中证明了其优于现有的基于模型的方法和一些基于无模型的算法,输出单个 Markov 策略且易于存储和执行。
Oct, 2020