ICLROct, 2020

DeepAveragers:通过求解派生的非参数 MDP 实现离线强化学习

TL;DR研究了一种离线强化学习方法,在静态数据集的基础上通过有效解决有限表示 MDPs 的方式进行。该方法可应用于任何学习表示,并具有支持多种解决方案、零成本调整等特性;其主要贡献是引入了 Deep Averagers with Costs MDP,并研究了其在离线强化学习方面的解决方案。实验证明这种方法在实践中可以发挥作用,并可扩展到大型复杂的离线 RL 问题。