ICMLJul, 2020

稳定离线强化学习的表示方法

TL;DR本文研究强化学习中函数逼近不稳定的问题,提出了一种基于状态表示学习的解决方案,分析 transition matrix、proto-value functions、krylov subspace 等方案的适用范围与稳定性,并通过实验验证了可以使用随机梯度下降学习这种可靠的状态表示,从而提高深度网络对强化学习的表示学习技巧。