Oct, 2019

折扣强化学习不是优化问题

TL;DR折扣强化学习与函数逼近在连续任务的控制中本质上不兼容,无法通过常规优化表达,使用函数逼近时不存在最优策略。因此,我们鼓励研究者采用严格的优化方法,如最大化平均奖励,来解决连续任务的强化学习问题。