Nov, 2021

用于离线反事实信息匹配的通用决策Transformer

TL;DR提出了广义决策转换器(GDT)以解决HIM问题,该方法能够从轨迹数据中提取多任务策略。 GDT不仅恢复了决策转换器(DT)作为特殊情况,还引入了新的分类DT(CDT)和双向DT(BDT)以匹配未来的不同统计信息,并在MuJoCo连续控制基准测试中得到了很好的应用。