Jun, 2021
最优值估计中的实例最优性:通过方差缩减 Q 学习实现自适应
Instance-optimality in optimal value estimation: Adaptivity via variance-reduced Q-learning
Koulik Khamaru, Eric Xia, Martin J. Wainwright, Michael I. Jordan
TL;DR本文提出一个本地极小极大方法,分析了计算强化学习下的最优 $Q$ 值函数的实例特定行为,并提供一个针对 $Q$ 学习中困难问题和易解问题的有力解释。