自适应约束下的自训练近最优强化学习
本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
本文提出了楽观的Nash Q-learning算法,并使用了新的Nash V-learning算法,解决了在马尔可夫博弈环境中的奖励学习优化问题,且这个算法的采样复杂度比现有算法还要低.
Jun, 2020
本文探究了基于模型的强化学习算法在多智能体环境中的样本复杂度,通过两人零和马尔科夫博弈问题的研究发现,此种算法的样本复杂度为大 O (SA(1-γ)-3ε-2),优于其他方法,但其依赖于动作空间大小,存在一定局限性。
Jul, 2020
该研究提出了一种用于上下文Bandit问题的复杂度度量方法,展示了其与最优实例相关遗憾的关系,并给出了新的算法来实现当存在一个最优选择时能够分辨性地进行探索。同时,该研究还在采用函数近似的强化学习问题上提出了新的算法,达到了优化的样本规模。
Oct, 2020
文章介绍了一种基于乐观不确定性的算法Nash-UCRL,在找到粗略相关均衡的情况下,可以有效地找到两个玩家的纳什均衡,并证明了其上界和下界的一致性,提出了一种解决有限状态下博弈问题的方法。
Feb, 2021
本研究在多智能体竞争的环境下对零和结构化Markov博弈问题的策略优化算法进行了提出和分析,考虑通过上置界乐观算法与虚拟博弈相结合的同时策略优化,从而使双方智能体的总体最优性差距以$\widetilde{O}(\sqrt{K})$的速度收敛,其中$K$为回合数量。
Jul, 2022
本文提出了一种基于OMWU方法的单环路政策优化算法,并在二人零和马尔可夫博弈中,通过控制正则化的程度,实现了有限时间的最后一次线性收敛到达量子响应均衡点,并在全信息离散设置中实现了收敛结果。
Oct, 2022
我们提出了一种新模型独立线性马尔可夫游戏,用于具有大状态空间和大量代理的多代理强化学习,该模型具有独立线性函数逼近,并为其设计了新算法以学习Markov粗糙关联均衡和Markov相关均衡,其采样复杂度只随着每个代理自己的函数类复杂度以多项式方式扩展,从而打破了多代理的诅咒。
Feb, 2023
本文研究了去中心化多智能体强化学习问题中的不后悔算法,并探讨了自主学习能否在标准Markov博弈框架中实现无后悔学习。结果表明,无论是已知还是未知的博弈,该问题都无法以多项式时间实现无后悔学习,该文贡献了理论证明支持,提出了基于集聚方法的创新性应用,并发现了SparseCCE问题的下限,从而说明了近年来学者对于该问题的研究成果,并对博弈理论和强化学习算法研究方向提出了新的思考。
Mar, 2023
本文首次通过对 Wang 等人 (2023) 的 AVLPR 框架进行优化,应用基于数据的悲观估计来解决“多智能体诅咒”,并提出了新颖的“动作相关奖励”方法,通过拓展选择插件算法的范围,结合单智能体强化学习领域的最新技术,提出了一种同时解决了多智能体诅咒问题、达到了最佳的 O(T^-1/2) 收敛速率以及避免了多项式依赖的算法。
Feb, 2024