Nov, 2023

有时间限制的强化学习

TL;DR我们引入并研究了具有任意时间限制的受限马尔可夫决策过程(cMDPs)。我们提出了一种固定参数可处理的方法,将具有任意时间限制的 cMDPs 转化为无约束的 MDPs。我们设计出了适用于大表 cMDPs 的计划和学习算法,并设计了近似算法,可以高效地计算或学习一个近似可行策略。