NIPSOct, 2018

深度反应策略在 MDP 规划中的转移

TL;DR本论文提出了一种基于深度强化学习技术的 MDP planning domains 的无模型迁移学习算法,通过利用 RDDL 表示中的符号状态配置和转移函数,使得零 / 极少量训练和无需使用领域模拟器的迁移成为可能。