Sep, 2022

渐进上下文动态自适应连续强化学习

TL;DR本文提出一种基于动态自适应的连续强化学习框架 DaCoRL,采用渐进式上下文建模来对动态环境中的任务进行聚类,利用可扩展多头神经网络来逼近策略,同时借助在线贝叶斯聚类技术精确地分类当前任务并实例化所需的新上下文。在多个机器人导航任务和 MuJoCo 运动任务上进行的实验证明该框架具有更高的稳定性、总体性能和泛化能力。