variance-reduced q-learning | BriefGPT

关键词variance-reduced q-learning

搜索结果 - 1

方差缩减 $Q$- 学习达到了最小极差优化
介绍和分析了一种方差减少的 Q-learning 方法，为具有有限状态和动作空间的折扣 MDPs 提供了相对精确的最优 Q 函数估计，其采样数量与最小极值下界匹配。
PDF5 years ago