BriefGPT.xyz
Feb, 2018
强化学习中超越单步贪心方法
Beyond the One Step Greedy Approach in Reinforcement Learning
HTML
PDF
Yonathan Efroni, Gal Dalal, Bruno Scherrer, Shie Mannor
TL;DR
本文研究了改进策略和评估策略之间交替的着名Policy Iteration算法,以及其变体中多步向前的政策改进,形成了多步政策改进的变量,导出了新的算法并证明了其收敛性。此外,文章还展示了近期著名的强化学习算法实际上是我们框架的实例,阐明了它们的经验成功,为未来研究提供了推导新算法的方法。
Abstract
The famous
policy iteration
algorithm
alternates between policy improvement and
policy evaluation
. Implementations of this
→