May, 2022

具有生成模型的 KL 熵正则化强化学习是极小极大值最优的

TL;DR本文研究了使用生成模型的无模型强化学习的样本复杂性,重点分析了使用 Kullback-Leibler 散度和熵正则化在值和策略更新中的 Geist 等人(2019)和 Vieillard 等人的 Mirror descent value iteration(MDVI),并证明了在 ε 足够小的情况下,该算法几乎是极小值 - 最优的,这是第一个证明了在所考虑的条件下,一个简单的无模型算法(不执行方差缩减)几乎是极小值 - 最优的理论结果。