ICLRSep, 2019

利用结构实现基于价值的规划和强化学习

TL;DR利用矩阵估计技术,提出了一种利用 Q 函数中的全局低秩结构来提高经典控制器和深度强化学习性能的方案。在控制任务和 Atari 游戏中进行的实验证实了该方法的有效性。