ICLRNov, 2021

价值函数空间:面向技能的状态抽象实现长程推理

TL;DR该论文探讨了如何使用层次强化学习来解决长期任务中存在的性能问题,并提出了一种名为 Value Function Spaces 的状态抽象方法,通过利用对应于每个低层技能的价值函数来表示任务相关信息,从而在迷宫解决和机器人操纵等任务中提高了性能及零样本泛化能力。