Oct, 2021

突破样本复杂度障碍,实现后悔优化的无模型强化学习

TL;DR通过引入方差缩减策略,设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题,该算法的空间复杂度为$ O(SAH)$,较以前的算法提高了$S^5A^3$倍的效率。