Sep, 2022

利用 Transformer 实现强化学习中的可解释时间逻辑运动规划

TL;DR通过将 Transformer 模块与强化学习相结合,开发了一个基于二次 Transformer 引导的时间逻辑框架(T2TL),以学习并执行各种自适应控制任务。其采用的 LTL 指令通过 co-safe LTL 指定,可以将复杂任务分解为可学习的子目标,从而将非马尔可夫奖励决策过程转换为马尔可夫过程,并通过同时学习多个子任务来提高采样效率。