May, 2022

可伸缩的终身强化学习的稳健任务模型的狄利克雷过程混合

TL;DR本文介绍了一种可扩展的永久强化学习方法,采用Dirichlet过程混合模型对不稳定的任务分配进行建模,使用贝叶斯方法和EM算法对模型进行动态更新扩展,同时使用域随机化训练鲁棒性先验参数以使得模型可以更好地泛化和适应未知任务,并在导航和运动领域进行的实验展示了我们的方法成功实现了可扩展的终身RL,并优于相关现有方法。