Feb, 2019

终止判定器

TL;DR该研究论文讨论了自主发现强化学习代理的行为抽象或选项的问题,提出了一种算法以选项的压缩性能作为终止条件,并利用经典选项框架学习选项转换模型作为终止条件的“评论家”,通过这种方式得出的选项具有实际意义,对学习和规划都有用。