Oct, 2023

竞争强化学习的后验采样:函数逼近和部分观测

TL;DR该研究讨论了用于竞争强化学习的后验抽样算法,针对一般函数逼近的背景进行研究。在自我对弈和对抗性学习两个关键设置下,提出了自我对弈和对抗性广义躲避者系数(GEC)作为函数逼近的复杂度度量,捕捉了对马尔科夫博弈中的探索与利用的平衡。基于自我对弈 GEC,提出了基于模型的自我对弈后验抽样方法来控制玩家学习纳什均衡,成功应对了状态的部分可观测性。此外,确定了一系列部分可观测的 MG 模型,适应对手的对抗性策略的 MG 学习。结合对抗性 GEC,提出了基于模型的用于学习对抗性 MG 的后验抽样方法,包括可能部分可观测的情况。进一步给出了所提算法的低后悔界限,它能够与所提出的 GEC 和剧集数量 T 呈次线性缩放。据我们所知,我们首次开发了用于竞争强化学习的通用基于模型的后验抽样算法,可应用于大多数易处理的零和 MG 类别,包括完全可观测和部分可观测 MG,并适用于自我对弈和对抗性学习。