ICMLApr, 2020

上置信强化学习中的探索优化

TL;DRUCRL3 算法是在 UCRL2 算法的基础上引入了专业时间均匀集中不等式和每个状态 - 动作对奖励和转移分布的置信区间等改进,以减少探索来优化分布,理论上改善了 UCRL2 算法,在标准环境下的数值实验也证明了 UCRL3 算法的实用性和有效性。