Jun, 2019

方差缩减 $Q$- 学习达到了最小极差优化

TL;DR介绍和分析了一种方差减少的 Q-learning 方法,为具有有限状态和动作空间的折扣 MDPs 提供了相对精确的最优 Q 函数估计,其采样数量与最小极值下界匹配。