Jan, 2023

对抗性在线多任务强化学习

TL;DR在此篇文章中,我们考虑对抗性在线多任务强化学习设置,每一次多任务中学习者需要在未知的有限数量 K 的 MDP 模型中,在有限的时间内学习到最优策略并减小遗憾值。我们提出了一种将模型从众多任务中分离开来的方法,并证明了任意学习算法的遗憾下界为 Ω(K√DSAH) 和一类均匀 - 好的聚类 - 学习算法的样本复杂度下界为 Ω(K/λ²)。最后,我们提出了一种算法,通过聚类阶段的规定数量和学习阶段的学习率,获得了与 K 和 λ² 的相关性最优的样本复杂度保证和遗憾保证。