Sep, 2023

斯塔克伯格批量策略学习

TL;DR本研究提出了一种基于 Stackelberg 的学习算法,用于批量强化学习中的政策学习问题,通过采用领导者 - 追随者结构的博弈论视角,该算法具有收敛性保证和对不同 iable Stackelberg 均衡的收敛性保证,实验证明其在批处理强化学习基准和真实世界数据集上表现良好。