Jun, 2024
PlanDQ: 分层计划编排通过 D-Conductor 和 Q-Performer
PlanDQ: Hierarchical Plan Orchestration via D-Conductor and Q-Performer
Chang Chen, Junyeob Baek, Fei Deng, Kenji Kawaguchi, Caglar Gulcehre...
TL;DR提出一种用于离线强化学习的分层规划器 PlanDQ,其中包括高层的扩散式规划器 D-Conductor,用于指导低层策略实现子目标,并采用 Q-learning 的方法 Q-Performer 来完成这些子目标,实验结果表明 PlanDQ 在 D4RL 连续控制基准任务以及 AntMaze、Kitchen 和 Calvin 等长时间跨度任务上实现了优越或有竞争力的性能。