IDQL: 基于扩散策略的隐式 Q 学习作为一个演员 - 评论家方法

Apr, 2023

IDQL: 基于扩散策略的隐式 Q 学习作为一个演员 - 评论家方法

IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion Policies

Philippe Hansen-Estruch, Ilya Kostrikov, Michael Janner, Jakub Grudzien Kuba, Sergey Levine

TL;DR使用 Diffusion parameterized behavior policy 和 Implicit Q-learning (IQL) 模型，提出了一个新的 actor-critic 模型，称为 Implicit Diffusion Q-learning (IDQL)，能够处理 offline RL 问题中的 out-of-distribution actions。

Abstract

Effective offline rl methods require properly handling out-of-distribution actions. implicit q-learning (IQL) addresses this by training a Q-function using only dataset actions through a modified Bellman backup.

offline rl implicit q-learning actor-critic method diffusion parameterized behavior policy idql

发现论文，激发创造

AlignIQL: 隐式 Q 学习中的策略对齐通过约束优化

本研究提出了一种解决隐式策略发现问题的方法，并通过优化问题的形式对其进行了描述。基于这个优化问题，我们进一步提出了两种实用算法 AlignIQL 和 AlignIQL-hard，它们继承了 IQL 中演员和评论家解耦的优势，并阐明了为什么 IQL 可以使用加权回归进行策略提取。实验结果表明，与 IQL 和 IDQL 相比，我们的方法保持了 IQL 的简单性并解决了隐式策略发现问题，在 D4RL 数据集上取得了与其他 SOTA 离线 RL 方法相媲美或更优的结果。特别是在 Antmaze 和 Adroit 等复杂的稀疏奖励任务中，我们的方法明显优于 IQL 和 IDQL。

May, 2024

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

作为离线强化学习表现策略类别的扩散策略

本文提出了一种利用扩散模型表示策略的离线强化学习方法 (Diffusion Q-learning)，与行为克隆和策略改进的耦合均有助于实现出色的性能，证明了该方法在大多数 D4RL 基准任务中表现出卓越的性能。

Aug, 2022

无 OOD 动作的离线强化学习：通过隐含价值规范进行样本内学习

本论文针对离线强化学习中，在分布转变时计算 Q 值的问题，提出了基于量化回归的 IQL 策略，结合隐含值规范化框架提出了 SQL 和 EQL 算法，实验结果验证了算法的有效性和鲁棒性。

Mar, 2023

离线强化学习中创建信任区域的扩散策略

离线强化学习中的扩散信任 Q 学习方法（DTQL）通过引入扩散模型作为一个强大和有表达力的策略类，消除了训练和推理过程中迭代去噪采样的需要，大大提高了计算效率，并在多个基准任务中展现了优越的性能和算法特性。

May, 2024

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

扩散演员 - 评论家：将受约束策略迭代形式化为离线强化学习的扩散噪声回归

这篇论文介绍了一种名为 Diffusion Actor-Critic（DAC）的方法，用于解决离线强化学习中价值函数过高估计的问题，并通过扩散模型来表示目标策略，进而通过 Kullback-Leibler（KL）约束策略迭代来规范化目标策略。该方法在 D4RL 基准上的实验表明，在几乎所有环境中，其性能优于现有的方法。

May, 2024

离线强化学习的高效扩散策略

该论文提出了一种有效的扩散策略（EDP），用于在线学习优化策略，可以解决传统 Diffusion-QL 的训练效率低和与基于最大似然的 RL 算法不兼容的问题。研究表明，EDP 可将扩散策略的训练时间缩短至 5 小时，在 D4RL 基准测试中实现了新的最先进结果。

May, 2023

IQL-TD-MPC：基于隐式 Q - 学习的分层模型预测控制

本文提出了一种基于模型的强化学习算法 IQL-TD-MPC，并通过此算法构建一个层级架构，使用规划生成的意图嵌入来增强任何现成的离线强化学习算法，从而显着提高在 D4RL 基准任务中的性能。

Jun, 2023

基于隐式语言 Q 学习的自然语言生成离线强化学习

本文提出了一种离线强化学习方法 ILQL，以结合传统强化学习算法的灵活的优化框架和有监督学习的现有数据利用能力及其简明稳定性的特点，以指导语言模型的生成来最大化效用，并在自然语言生成环境中有效地优化高方差奖励函数。

Jun, 2022