Sep, 2022

ASPiRe: 自适应技能先验在强化学习中的应用

TL;DRASPiRe 通过特定数据集来学习不同的技能先验(即行为先验),并学习如何将它们相互组合来解决新任务,期望通过自适应的权重分配来指导政策学习以加速学习的下游任务。