Jul, 2020

强化学习中纯探索的快速主动学习

TL;DR研究表明,对于纯探索目标的奖励免费探索,按比例缩放的奖励可以带来更快的学习率,从而提高了对于时限的依赖性的已知上限。此外,在最佳策略识别设置中,改进的停止时间分析可以将样本复杂度提高一倍。