May, 2023
有期半马尔科夫决策过程中基于期权的遗憾最小化算法分析
An Option-Dependent Analysis of Regret Minimization Algorithms in
Finite-Horizon Semi-Markov Decision Processes
TL;DR本文研究如何使用分层强化学习来解决复杂任务中规划时间过长的问题,并提供了关于时间抽象的上界,指出通过分层结构可以降低时间抽象,提高学习性能。在此基础上,本文重点探讨选项框架下可用选项的平均持续时间对规划时间和遗憾的影响,并放松了预先训练选项的假设来展示在特定情况下,学习式分层学习可能比标准方法更优。