Jul, 2023

行动胜于言辞:从战略反馈中能够证明样本高效度的量化斯塔克尔伯格均衡强化学习

TL;DR研究了强化学习在具有领导者-追随者结构的情境马尔可夫博弈中学习Quantal Stackelberg Equilibrium的问题,提出了基于函数逼近的在线和离线问题的高效算法,利用最大似然估计来学习追随者的量化响应模型,并结合模型自由或基于模型的强化学习解决领导者的决策问题,同时利用不确定性来实现对乐观和悲观算法的估计,并在线性和短视场景下具备计算效率。