Jul, 2022

通过观察和学习世界的运作,发现利用 ' 赌博式 ' 选择进行规划的生活技能

TL;DR该论文提出了一种利用历史交互观察和学习以合成抽象技能的规划代理的新方法,该方法基于马尔科夫状态空间模型,利用未知前提条件下的行动集合,并将技能公式化为基于当前状态提出行动计划的高层抽象策略,以此实现在嘈杂环境下自动学习稳健的高级技能。