AlignIQL: 隐式 Q 学习中的策略对齐通过约束优化

May, 2024

AlignIQL: 隐式 Q 学习中的策略对齐通过约束优化

AlignIQL: Policy Alignment in Implicit Q-Learning through Constrained Optimization

Longxiang He, Li Shen, Junbo Tan, Xueqian Wang

TL;DR本研究提出了一种解决隐式策略发现问题的方法，并通过优化问题的形式对其进行了描述。基于这个优化问题，我们进一步提出了两种实用算法 AlignIQL 和 AlignIQL-hard，它们继承了 IQL 中演员和评论家解耦的优势，并阐明了为什么 IQL 可以使用加权回归进行策略提取。实验结果表明，与 IQL 和 IDQL 相比，我们的方法保持了 IQL 的简单性并解决了隐式策略发现问题，在 D4RL 数据集上取得了与其他 SOTA 离线 RL 方法相媲美或更优的结果。特别是在 Antmaze 和 Adroit 等复杂的稀疏奖励任务中，我们的方法明显优于 IQL 和 IDQL。

Abstract

implicit q-learning (IQL) serves as a strong baseline for offline rl, which learns the value function using only dataset actions through quantile regression. However, it is unclear how to recover the implicit pol

implicit q-learning offline rl policy extraction implicit policy-finding problem d4rl datasets

发现论文，激发创造

IDQL: 基于扩散策略的隐式 Q 学习作为一个演员 - 评论家方法

使用 Diffusion parameterized behavior policy 和 Implicit Q-learning (IQL) 模型，提出了一个新的 actor-critic 模型，称为 Implicit Diffusion Q-learning (IDQL)，能够处理 offline RL 问题中的 out-of-distribution actions。

Apr, 2023

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

无 OOD 动作的离线强化学习：通过隐含价值规范进行样本内学习

本论文针对离线强化学习中，在分布转变时计算 Q 值的问题，提出了基于量化回归的 IQL 策略，结合隐含值规范化框架提出了 SQL 和 EQL 算法，实验结果验证了算法的有效性和鲁棒性。

Mar, 2023

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

基于隐式语言 Q 学习的自然语言生成离线强化学习

本文提出了一种离线强化学习方法 ILQL，以结合传统强化学习算法的灵活的优化框架和有监督学习的现有数据利用能力及其简明稳定性的特点，以指导语言模型的生成来最大化效用，并在自然语言生成环境中有效地优化高方差奖励函数。

Jun, 2022

信其所见：离线多智能体强化学习的隐式约束方法

本文介绍了一种新的离线强化学习算法 ICQ，它通过只信任数据集中的状态 - 动作对来有效减轻外推误差，并将其扩展到多智能体任务中，表现出明显的性能优势。

Jun, 2021

IQL-TD-MPC：基于隐式 Q - 学习的分层模型预测控制

本文提出了一种基于模型的强化学习算法 IQL-TD-MPC，并通过此算法构建一个层级架构，使用规划生成的意图嵌入来增强任何现成的离线强化学习算法，从而显着提高在 D4RL 基准任务中的性能。

Jun, 2023

IQ-Learn: 逆软 Q 学习用于模仿

介绍了一种动态感知的逆强化学习方法 ——IQ-Learn，它通过学习单个 Q 函数来避免对抗性训练，并可在标准测试中取得最好的结果，比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。

Jun, 2021

离线强化学习的预测离策略 Q 学习（POP-QL）的稳定化

稳定离线策略 Q 学习的新方法，通过重新加权离线样本和限制策略以防止发散和减少价值逼近错误，能在标准基准测试中竞争性地表现，并在数据收集策略明显次优的任务中胜过竞争方法。

Nov, 2023

反向软 Q 学习用于离线模仿与次优示范

离线模仿学习主要通过有限的专家演示和较大的次优演示来提出一种基于反向软 Q 学习的新方法，通过添加正则化项来对齐学习得到的回报函数，从而有效解决离线模仿学习中的过拟合问题和训练向次优策略靠拢的问题。该方法在标准基准测试中明显优于其他离线模仿学习方法。

Feb, 2024