IQL-TD-MPC：基于隐式 Q - 学习的分层模型预测控制

Jun, 2023

IQL-TD-MPC：基于隐式 Q - 学习的分层模型预测控制

IQL-TD-MPC: Implicit Q-Learning for Hierarchical Model Predictive Control

Rohan Chitnis, Yingchen Xu, Bobak Hashemi, Lucas Lehnert, Urun Dogan...

TL;DR本文提出了一种基于模型的强化学习算法 IQL-TD-MPC，并通过此算法构建一个层级架构，使用规划生成的意图嵌入来增强任何现成的离线强化学习算法，从而显着提高在 D4RL 基准任务中的性能。

Abstract

model-based reinforcement learning (RL) has shown great promise due to its sample efficiency, but still struggles with long-horizon sparse-reward tasks, especially in offline settings where the agent learns from a fixed dataset. We hypothesize that model-based RL agents struggle in the

model-based reinforcement learning temporal abstraction offline learning iql-td-mpc intent embeddings

发现论文，激发创造

信息论模型预测 Q 学习

本研究提出了一种基于信息理论模型预测控制和熵正则化强化学习的 Q 学习算法，可以利用有偏模型，并在模拟控制任务中验证了该算法的有效性。

Dec, 2019

基于时序差分学习的模型预测控制

本文提出了一种称之为 TD-MPC 的新型控制方法，该方法结合了基于模型和基于模型无关的方法。研究结果表明，该方法能够在 DMControl 和 Meta-World 上取得更好的样本效率和渐进性能。

Mar, 2022

TD-MPC2：连续控制的可扩展、健壮世界模型

本文介绍了 TD-MPC2：一种改进的模型预测控制算法，通过在学得的隐式（无解码器）世界模型的潜空间中进行局部轨迹优化。我们展示了 TD-MPC2 在跨越 4 个不同任务领域的 104 个在线强化学习任务中相对于基准方案的显著改进，通过一组超参数实现了一致强大的结果。我们进一步展示了模型和数据规模的增加会提升代理程序的性能，并成功地训练了一个单一的 3.17 亿参数代理程序，执行了 80 个跨多个任务领域、体现和动作空间的任务。最后，我们对大型 TD-MPC2 代理程序的经验、机会和风险进行了总结。

Oct, 2023

AlignIQL: 隐式 Q 学习中的策略对齐通过约束优化

本研究提出了一种解决隐式策略发现问题的方法，并通过优化问题的形式对其进行了描述。基于这个优化问题，我们进一步提出了两种实用算法 AlignIQL 和 AlignIQL-hard，它们继承了 IQL 中演员和评论家解耦的优势，并阐明了为什么 IQL 可以使用加权回归进行策略提取。实验结果表明，与 IQL 和 IDQL 相比，我们的方法保持了 IQL 的简单性并解决了隐式策略发现问题，在 D4RL 数据集上取得了与其他 SOTA 离线 RL 方法相媲美或更优的结果。特别是在 Antmaze 和 Adroit 等复杂的稀疏奖励任务中，我们的方法明显优于 IQL 和 IDQL。

May, 2024

时序差分模型：无模型深度强化学习用于模型控制

介绍了一种可以用于模型无关学习和模型控制的基于目标条件的价值函数，称为时间差分模型，它可以利用状态转移的丰富信息来非常高效地学习，同时达到超过直接基于模型的 RL 方法的渐近性能的实验结果表明，在一系列连续控制任务中，TDM 相比最先进的模型无关和模型相关方法提供了实质性的改进。

Feb, 2018

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

PlanDQ: 分层计划编排通过 D-Conductor 和 Q-Performer

提出一种用于离线强化学习的分层规划器 PlanDQ，其中包括高层的扩散式规划器 D-Conductor，用于指导低层策略实现子目标，并采用 Q-learning 的方法 Q-Performer 来完成这些子目标，实验结果表明 PlanDQ 在 D4RL 连续控制基准任务以及 AntMaze、Kitchen 和 Calvin 等长时间跨度任务上实现了优越或有竞争力的性能。

Jun, 2024

IDQL: 基于扩散策略的隐式 Q 学习作为一个演员 - 评论家方法

使用 Diffusion parameterized behavior policy 和 Implicit Q-learning (IQL) 模型，提出了一个新的 actor-critic 模型，称为 Implicit Diffusion Q-learning (IDQL)，能够处理 offline RL 问题中的 out-of-distribution actions。

Apr, 2023

使用基于模型的离线强化学习解决长期任务

通过使用学习模型生成虚拟轨迹来解决学习有限、静态数据挑战的基于模型的离线强化学习方法，通过使用期望回归和 λ-returns 来缓解模型轨迹中的高偏差，在处理长时程任务方面明显优于以前的方法，同时与基于模型和无模型的方法在评估任务上效果相当。

Jun, 2024

信其所见：离线多智能体强化学习的隐式约束方法

本文介绍了一种新的离线强化学习算法 ICQ，它通过只信任数据集中的状态 - 动作对来有效减轻外推误差，并将其扩展到多智能体任务中，表现出明显的性能优势。

Jun, 2021