NIPSNov, 2018

目标导航探索的复杂性

TL;DR通过构建依赖图和分析随机漫步的击中时间,我们设计出了一类逃脱房间环境,评估了不同种类的奖励方法和分层策略对于智能体探索能力的影响,并表明超过某个复杂度的环境需要采用分层方法。