Oct, 2024

基于时序逻辑目标的样本高效强化学习:利用任务规范指导探索

TL;DR本文研究在不确定动态系统中学习最佳控制策略的问题,其中高层控制目标由线性时序逻辑(LTL)公式指定。研究提出了一种加速的强化学习算法,采用新颖的任务驱动探索策略,提高了样本效率,尤其在任务复杂性或马尔可夫决策过程(MDP)规模增大时更为显著。通过理论分析和实验证明,该方法能够显著快于现有竞争策略。