零和马尔可夫博弈强化学习的一种新政策迭代算法
本文研究了改进策略和评估策略之间交替的着名Policy Iteration算法,以及其变体中多步向前的政策改进,形成了多步政策改进的变量,导出了新的算法并证明了其收敛性。此外,文章还展示了近期著名的强化学习算法实际上是我们框架的实例,阐明了它们的经验成功,为未来研究提供了推导新算法的方法。
Feb, 2018
本文探究了基于模型的强化学习算法在多智能体环境中的样本复杂度,通过两人零和马尔科夫博弈问题的研究发现,此种算法的样本复杂度为大 O (SA(1-γ)-3ε-2),优于其他方法,但其依赖于动作空间大小,存在一定局限性。
Jul, 2020
本文针对多智能体马尔科夫博弈提出了一种基于模型的算法Nash-VI,在理论上证明其具有较高的样本利用率,并且在实验中证明了其优于现有的基于模型的方法和一些基于无模型的算法,输出单个Markov策略且易于存储和执行。
Oct, 2020
本文提出了一个新算法,能够有效地应用于大量状态空间问题中的多智能体强化学习,以寻找具有低复杂度的多代理贝尔曼-伊鲁德维度的零和马尔科夫博弈 Nash 平衡策略。
Jun, 2021
本研究介绍了一种新的强化学习框架,提出了基于状态相关价值估计的自适应规划水平选择策略,并设计了相应的深度Q网络算法,最后在迷宫环境和Atari上验证了方法的有效性。
Jan, 2022
本文研究策略梯度方法在Markov潜在博弈多智能体强化学习问题上的全局非渐进收敛性质,提出新的独立策略梯度算法,证明算法达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2),并在利用函数逼近的样本算法中,建立了样本复杂度为O(1/epsilon^5)的界限。同时,还找到了一类独立策略梯度算法,可在玩家对游戏类型无感知的情况下,实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。
Feb, 2022
本文提出了一种基于OMWU方法的单环路政策优化算法,并在二人零和马尔可夫博弈中,通过控制正则化的程度,实现了有限时间的最后一次线性收敛到达量子响应均衡点,并在全信息离散设置中实现了收敛结果。
Oct, 2022
本文提出解决一种强化学习中的长期悬而未决的问题,通过使用前瞻而非简单的贪心策略迭代来提高策略,同时在表格和函数逼近设置中都提供了结果。我们证明了这种策略迭代方案收敛于最优策略。
Jan, 2023
为了解决两个玩家零和马尔可夫博弈问题,在多智能体强化学习的理论研究中引起了越来越多的关注。通过提出一种无模型的基于阶段的Q学习算法,我们展示了该算法能够与最佳的有模型算法达到相同的样本复杂度,进而首次证明了无模型算法在与模型有关的$H$上的依赖性上能够达到相同的最优性。
Aug, 2023