Oct, 2023

使用经验分类训练非马尔可夫任务

TL;DR我们提出了一种新颖的强化学习方法,用于实现基于LTL$_f$(有限轨迹线性时态逻辑)的非马尔可夫奖励,通过LTL$_f$到MDPs(马尔可夫决策过程)的线性复杂度编码,利用自动机结构(与LTL$_f$规范语义等价)的优先经验回放技术来改善训练过程,在多个引入非马尔可夫任务的基准问题上进行经验证明了我们方法的可行性和有效性。