PlanDQ: 分层计划编排通过 D-Conductor 和 Q-Performer

Jun, 2024

PlanDQ: 分层计划编排通过 D-Conductor 和 Q-Performer

PlanDQ: Hierarchical Plan Orchestration via D-Conductor and Q-Performer

Chang Chen, Junyeob Baek, Fei Deng, Kenji Kawaguchi, Caglar Gulcehre...

TL;DR提出一种用于离线强化学习的分层规划器 PlanDQ，其中包括高层的扩散式规划器 D-Conductor，用于指导低层策略实现子目标，并采用 Q-learning 的方法 Q-Performer 来完成这些子目标，实验结果表明 PlanDQ 在 D4RL 连续控制基准任务以及 AntMaze、Kitchen 和 Calvin 等长时间跨度任务上实现了优越或有竞争力的性能。

Abstract

Despite the recent advancements in offline rl, no unified algorithm could achieve superior performance across a broad range of tasks. Offline \textit{value function learning}, in particular, struggles with sparse

offline rl value function learning credit assignment extrapolation errors hierarchical planner

发现论文，激发创造

IQL-TD-MPC：基于隐式 Q - 学习的分层模型预测控制

本文提出了一种基于模型的强化学习算法 IQL-TD-MPC，并通过此算法构建一个层级架构，使用规划生成的意图嵌入来增强任何现成的离线强化学习算法，从而显着提高在 D4RL 基准任务中的性能。

Jun, 2023

无任务离线强化学习的潜在计划

本研究提出了一种层次化的方法，将模仿学习和离线强化学习的优点相结合，学习从高维相机观察中获得与任务无关的长时程策略，并通过技能链接来合并潜在的行为先验，以达到以前未见的技能组合，从而更好地控制机器人的实验结果。

Sep, 2022

使用基于模型的离线强化学习解决长期任务

通过使用学习模型生成虚拟轨迹来解决学习有限、静态数据挑战的基于模型的离线强化学习方法，通过使用期望回归和 λ-returns 来缓解模型轨迹中的高偏差，在处理长时程任务方面明显优于以前的方法，同时与基于模型和无模型的方法在评估任务上效果相当。

Jun, 2024

基于深度强化学习的自动规划中的目标选择学习

提出了一种具备学习选择子目标的规划和行动架构，可以在面对有实时限制的场景时减轻规划器的负载。在视频游戏环境中训练了这种架构，并通过测试同一游戏的不同关卡来评估其泛化能力。结果表明，与其他方法相比，该模型在计划质量（计划长度）和时间要求方面表现更好，既比标准的深度 Q 学习更具样本效率，又可以更好地泛化到不同的关卡，同时较现有最先进的自动规划器缩短问题解决时间，但相应地得到的计划行动增加了 9%。

Jun, 2024

连续控制增强学习：分布分布式 DrQ 算法

Distributed Distributional DrQ 是一个无模型离线 RL 算法，用于连续控制任务，基于代理的状态和观测，是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础，该算法在各种连续控制任务中取得了出色的性能。

Apr, 2024

分层深度强化学习：整合时间抽象和内在动机

文章介绍了一种名为 Hierarchical-DQN 的框架，结合了分层的值函数、内在动机和深度强化学习，在稀疏反馈的环境中，Hierarchical-DQN 可以提供灵活的目标规定和高效的探索，通过在两个问题上的实验表明该方法的有效性。

Apr, 2016

基于像素的深度分层规划

通过在一个学习好的世界模型的潜在空间 planning，我们引入了一种名叫 Director 的实用方法，直接从像素学习分层行为，无需手动指定目标空间或子任务，并在具有稀疏奖励的任务中表现超越了探索方法。

Jun, 2022

区分性深层 Dyna-Q: 对话策略学习的强韧规划

本文提出了一种判别式深度 Dyna-Q (D3Q) 方法来提高 Deep Dyna-Q (DDQ) 框架在任务完成对话策略学习中的有效性和鲁棒性。通过整合基于 RNN 的鉴别器来控制训练数据的质量，实验表明与 DDQ 相比，D3Q 的性能得到了显著提高，并在领域扩展实验中进一步证明了 D3Q 的有效性和鲁棒性。

Aug, 2018

策略性保守型 Q 学习

提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架，用于解决离线强化学习中的逼近误差和分布外动作的问题，在 D4RL 基准任务上表现优于现有方法。

Jun, 2024

在线规划，离线学习：基于模型控制的高效学习和探索

提出了一种 POLO (计划在线，学习离线) 框架，利用局部基于模型的控制、全局价值函数学习和探索之间的协同关系来解决需要不断在世界中行动和学习的代理问题，并探讨了轨迹优化、价值函数的近似和不确定性估计等方面的问题，最终在几分钟的真实世界体验中解决了类人运动和灵巧的手中操作这样的复杂模拟控制任务。

Nov, 2018