Feb, 2024

独立线性函数逼近的马尔可夫博弈的优化样本复杂度

TL;DR本文首次通过对 Wang 等人 (2023) 的 AVLPR 框架进行优化,应用基于数据的悲观估计来解决 “多智能体诅咒”,并提出了新颖的 “动作相关奖励” 方法,通过拓展选择插件算法的范围,结合单智能体强化学习领域的最新技术,提出了一种同时解决了多智能体诅咒问题、达到了最佳的 O (T^-1/2) 收敛速率以及避免了多项式依赖的算法。