Mar, 2022

多任务强化学习中具有分布式价值近似的转换轨迹变换器

TL;DRSwitchTT是一种用于解决多任务强化学习中离线模型学习问题的模型,它采用了开关Transformer模型架构以提高模型容量和分布式轨迹值估计器以改善策略性能,尤其是在稀疏奖励设置中。我们的实验证明,SwitchTT可以在10个任务的学习中比Trajectory Transformer获得10%的改进,并且可以获得多达90%的离线模型训练速度提高。