May, 2023

乐观自然策略梯度:一种简单高效的在线强化学习策略优化框架

TL;DR本文提出了一种称为 Optimistic NPG 的简单高效策略优化框架,该框架的样本复杂度具有最优的维度依赖性,可以高效地学习线性 MDP 和函数逼近下的最优策略。