AAAIDec, 2023

不是所有任务都一样困难:具有动态深度路由的多任务强化学习

TL;DR该研究通过动态深度路由(D2R)框架实现多任务强化学习,其中通过绕过中间模块灵活选择不同数量的模块来提高数据效率并解决不同策略的路由路径问题。该框架进一步引入 ResRouting 方法解决行为策略和目标策略在离策略训练过程中的差异路由路径问题,并设计了自动的路由平衡机制来促进未掌握任务的继续路由探索。在 Meta-World 基准测试中,通过该框架在各种机器人操作任务上进行了广泛实验,取得了具有显著提高的学习效率的最新成果。