offline reinforcement learning (RL) aims to learn a policy that maximizes the
expected cumulative reward using a pre-collected dataset. Offline RL with
low-rank mdps or general function approximation has been wid
该研究针对强化学习中探索困境的问题,研究了无奖励的强化学习问题,提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法,证明了该方法可以在提供任意外界奖励的情况下,实现产生准最优策略或近似 Nash 均衡的复杂性为 O (1/epsilon^2) 的采样复杂度,是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。