Feb, 2024
独立线性函数逼近的马尔可夫博弈的优化样本复杂度
Refined Sample Complexity for Markov Games with Independent Linear
Function Approximation
TL;DR本文首次通过对 Wang 等人 (2023) 的 AVLPR 框架进行优化,应用基于数据的悲观估计来解决“多智能体诅咒”,并提出了新颖的“动作相关奖励”方法,通过拓展选择插件算法的范围,结合单智能体强化学习领域的最新技术,提出了一种同时解决了多智能体诅咒问题、达到了最佳的 O(T^-1/2) 收敛速率以及避免了多项式依赖的算法。