Dec, 2022

通过未来依赖选项推广 LTL 指令

TL;DR本文提出了一种新的多任务 RL 算法,通过离线策略学习选项来实现任务完成的全局最优性,并通过训练基于子目标序列的多步价值函数来更有效地传递满足未来子目标的奖励,从而解决了在 RL 中学习 LTL 任务代价函数时的一些问题。实验结果表明,该方法在 LTL 广义化方面具有优势。