Jun, 2021

最优值估计中的实例最优性:通过方差缩减 Q 学习实现自适应

TL;DR本文提出一个本地极小极大方法,分析了计算强化学习下的最优 $Q$ 值函数的实例特定行为,并提供一个针对 $Q$ 学习中困难问题和易解问题的有力解释。