Oct, 2020

层次强化学习的抽象值迭代

TL;DR提出一种新的基于连续状态和动作空间的控制的分层强化学习框架,其中用户指定状态的子集作为子目标区域,然后学习这些子目标区域之间的转换,并在生成的抽象决策过程 (ADP) 中构建高层计划,通过计划在抽象层和在具体层上的学习相结合的一个实际算法,优于现有的分层强化学习算法。