Aug, 2019

利用地标映射状态空间实现通用目标达成

TL;DR本文提出了一种在具有稀疏奖励下的大型 MDPs 中处理 long-range goals 的方法,该方法通过分层建模、farthest point sampling 和 RL 算法的结合来解决这个问题。实验结果表明,该方法比标准的 RL 算法更能有效地达成目标。