Mar, 2024

独立功能逼近的强化学习与马尔可夫博弈:在局部访问模型下改进的样本复杂度界限

TL;DR学习大状态和动作空间中的均衡、克服多项机构所带来的麻烦是一个具有挑战性的问题,最近的研究尝试通过使用独立的线性函数类来逼近每个代理的边际 Q 值来解决这个问题。我们介绍了一种新算法 Lin-Confident-FTRL,用于学习具有本地对模拟器访问能力的粗粒度相关均衡(CCE),并具有证明最优准确性界限 O(ϵ^-2)的可扩展性和抛弃了对动作空间的线性依赖。此外,我们对 Linear-Confident-FTRL 的分析广泛地推广了单机器人局部规划文献中的虚拟策略迭代技术,从而在假设对模拟器具有随机访问权时得到了一个新的计算有效的算法,并获得了更紧凑的样本复杂度界限。