Nov, 2018

深度学习中基于 MDP 同态的在线抽象

TL;DR本论文提出了一种新的算法来找到在具有连续状态空间的环境中的 MDP 抽象,基于 MDP 同态,该算法演示了抽象学习的能力并展示了如何重用这些抽象来引导在新任务中的探索。论文中的任务转移方法在大多数实验中优于基于深度 Q 网络的基准线。