多智能体强化学习的可证明高效信息导向采样算法
本文探究了基于模型的强化学习算法在多智能体环境中的样本复杂度,通过两人零和马尔科夫博弈问题的研究发现,此种算法的样本复杂度为大 O (SA(1-γ)-3ε-2),优于其他方法,但其依赖于动作空间大小,存在一定局限性。
Jul, 2020
本文针对多智能体马尔科夫博弈提出了一种基于模型的算法Nash-VI,在理论上证明其具有较高的样本利用率,并且在实验中证明了其优于现有的基于模型的方法和一些基于无模型的算法,输出单个Markov策略且易于存储和执行。
Oct, 2020
本文探讨了多人博弈中学习的样本复杂性问题, 并设计算法在样本复杂度多项式级别下, 求解多人一般和马尔可夫博弈的粗略关联均衡和关联均衡, 同时提出了针对特定条件下的学习算法, 显著提高了现有算法的效率和精度。
Oct, 2021
本文提出了一种多智能体强化学习算法,可以在一般和马尔可夫博弈中学习到一个粗略的相关均衡策略,并且算法是完全分散的,智能体只有本地信息,并不知道其他智能体的存在。
Oct, 2021
本文研究了多智能体强化学习在部分可观察性下的挑战性任务,其中每个智能体只能看到自己的观察和动作。我们通过考虑广义模型的部分可观察马尔科夫博弈,证明了一个富裕的子类可以使用样本高效的学习方法,从而找到弱显式部分可观察马尔科夫博弈的近似纳什均衡、相关均衡以及粗略相关均衡,当代理数量很小时可在多项式样本复杂度内学得。
Jun, 2022
本文提出了一种基于OMWU方法的单环路政策优化算法,并在二人零和马尔可夫博弈中,通过控制正则化的程度,实现了有限时间的最后一次线性收敛到达量子响应均衡点,并在全信息离散设置中实现了收敛结果。
Oct, 2022
该文提出了一种新颖的基于后验采样算法的马尔可夫博弈的可证明有效性算法,其中实现了对广义函数逼近的解决方案,并证明了该算法在满足一定条件的问题中具有 sqrt(T) 的后悔上限,丰富了 MGs 的工具箱并促进了后验采样的广泛应用。
Oct, 2022
我们提出了一种新模型独立线性马尔可夫游戏,用于具有大状态空间和大量代理的多代理强化学习,该模型具有独立线性函数逼近,并为其设计了新算法以学习Markov粗糙关联均衡和Markov相关均衡,其采样复杂度只随着每个代理自己的函数类复杂度以多项式方式扩展,从而打破了多代理的诅咒。
Feb, 2023
本文研究了去中心化多智能体强化学习问题中的不后悔算法,并探讨了自主学习能否在标准Markov博弈框架中实现无后悔学习。结果表明,无论是已知还是未知的博弈,该问题都无法以多项式时间实现无后悔学习,该文贡献了理论证明支持,提出了基于集聚方法的创新性应用,并发现了SparseCCE问题的下限,从而说明了近年来学者对于该问题的研究成果,并对博弈理论和强化学习算法研究方向提出了新的思考。
Mar, 2023
我们研究了多智能体强化学习(MARL)在一般和马尔可夫博弈(MG)下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量,即多智能体解耦系数(MADC),我们旨在找到基于样本高效学习的最小假设。利用该度量,我们提出了首个统一的算法框架,可以在低MADC的情况下保证在模型为基础和模型无关的MARL问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外,我们还展示了与现有工作相比,我们的算法提供了可比较的次线性遗憾。此外,我们的算法结合了一个均衡求解器和一个单一目标优化次程序,用于求解每个确定性联合策略的正则化收益,从而避免在数据相关的约束条件下求解约束优化问题(Jin et al. 2020; Wang et al. 2023),或在复杂的多目标优化问题(Foster et al. 2023)中执行抽样过程,因此更适合于实证实现。
Oct, 2023