May, 2023

在对抗性线性混合MDPs中的无限制视野强化学习

TL;DR本文通过提出第一个无界时间步长多次对抗强化学习的策略搜索算法,使用方差-不确定性感知加权最小二乘估计器和基于占用度量的在线搜索技术,以解决探索和对抗性奖励所带来的挑战,证明算法在全信息反馈下具有 O((d+log(|S|^2|A|))sqrt(K)) 的后悔界,其中 d 是未知转移核线性参数化的已知特征映射的维数,K 是剧集数量,|S| 和 |A| 是状态和行为空间的基数。