ICMLDec, 2017
SBEED:非线性函数逼近的收敛强化学习
SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation
Bo Dai, Albert Shaw, Lihong Li, Lin Xiao, Niao He...
TL;DR本文使用 Nesterov 的平滑技术和 Legendre-Fenchel 变换将贝尔曼方程式重新构成一个新的原始对偶优化问题,并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题,其中可以使用任何可微分类函数。我们提供了通用非线性函数逼近的第一个收敛保证,并分析了算法的样本复杂度。经验上,我们的算法在几个基准控制问题中与最先进的基准线相比表现得非常好。