ICMLOct, 2021

基于核和神经函数逼近的无奖励强化学习:单智能体马尔可夫决策过程和马尔可夫博弈

TL;DR该研究针对强化学习中探索困境的问题,研究了无奖励的强化学习问题,提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法,证明了该方法可以在提供任意外界奖励的情况下,实现产生准最优策略或近似 Nash 均衡的复杂性为 O (1/epsilon^2) 的采样复杂度,是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。