Jun, 2024

PlanDQ: 分层计划编排通过 D-Conductor 和 Q-Performer

TL;DR提出一种用于离线强化学习的分层规划器 PlanDQ,其中包括高层的扩散式规划器 D-Conductor,用于指导低层策略实现子目标,并采用 Q-learning 的方法 Q-Performer 来完成这些子目标,实验结果表明 PlanDQ 在 D4RL 连续控制基准任务以及 AntMaze、Kitchen 和 Calvin 等长时间跨度任务上实现了优越或有竞争力的性能。