CDSA：一种面向离线强化学习的保守去噪评分算法

Jun, 2024

CDSA：一种面向离线强化学习的保守去噪评分算法

CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning

Zeyuan Liu, Kai Yang, Xiu Li

TL;DR分布偏移是离线强化学习中的一个主要障碍，为了避免高估罕见或未见动作，需要将学得的策略与行为策略的差异最小化。与以往保守的离线强化学习算法相比，我们提出使用从预训练的离线强化学习算法生成的数据集密度的梯度场来调整原始动作，解耦了保守性约束和策略，从而使广泛的离线强化学习算法受益。我们提出了基于 Conservative Denoising Score 的算法（CDSA），它利用去噪得分模型来建模数据集密度的梯度，而不是数据集密度本身，在确定性和连续的 MDP 环境中提供了更准确和高效的方法来调整预训练策略生成的动作。实验结果表明，我们的方法显著提高了 D4RL 数据集中基线算法的性能，并证明了我们模型在不同任务中基于不同预训练离线强化学习策略的泛化性和即插即用能力，同时验证了代理经过我们方法后表现出更高的风险规避能力，并展示了它在不同任务上的有效泛化能力。

Abstract

distribution shift is a major obstacle in offline reinforcement learning, which necessitates minimizing the discrepancy between the learned policy and the behavior policy to avoid overestimating rare or unseen ac

distribution shift offline reinforcement learning conservative offline rl algorithms gradient fields conservative denoising score-based algorithm

发现论文，激发创造

通过保守密度估计学习稀疏离线数据集

该论文提出了一种名为保守密度估计（CDE）的新的训练算法，通过对状态 - 动作占据稳态分布明确定义约束条件，解决了离线强化学习中的样本外推错误问题，该方法在稀疏奖励或数据不足的情况下实现了最先进的性能，对于具有挑战性的任务，CDE 方法始终优于基线模型，展示了我们方法在离线强化学习中解决外推错误问题的优势。

Jan, 2024

保守型离线分布式强化学习

提出了一种适用于风险中性和风险厌恶领域的离线强化学习算法 CODAC，通过对预测收益分位数的度量来适应分布式强化学习，证明 CODAC 学习一个保守收益分布，并在机器人导航任务上成功地学习了风险厌恶策略，表现优于 D4RL MuJoCo 基准测试的方法。

Jul, 2021

OptiDICE: 通过稳态分布校正估计进行离线策略优化

本文提出了一种离线强化学习算法 OptiDICE，通过直接估计最优策略的稳态分布校正来避免过高估计动作值的问题，并使用一系列基准数据集证明了 OptiDICE 与现有最先进方法相比性能具有竞争力。

Jun, 2021

COptiDICE: 离线约束强化学习基于稳态分布修正估计

本文提出了一种基于 COptiDICE 的离线约束强化学习算法，该算法直接估计稳态分布的矫正值以优化策略，以满足成本约束，并在实验中表现出更好的约束满足和回报最大化的策略.

Apr, 2022

分布鲁棒优化有效地解决离线强化学习问题

本文利用不确定性集来直接建模转移内核的不确定性，并采用分布稳健优化方法，通过优化在不确定性集中的最坏情况下的性能来解决先前研究所面临的有限数据和分布转移的问题。

May, 2023

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

面向多任务离线强化学习的保守数据共享

介绍了多任务离线强化学习中数据共享中所面对的分布移位与性能问题，并提出了一种保守数据共享的方法，应用于单任务离线强化学习，取得了在多项挑战性多任务机器人控制问题中最佳或相当的性能。

Sep, 2021

领域：温和保守的基于模型的离线强化学习

这篇论文提出了一种不需要模型不确定性估计的温和保守型基于模型的离线强化学习算法 (DOMAIN)，通过引入模型样本的自适应抽样分布来调整模型数据惩罚，理论上证明了该算法在区域外学习到的 Q 值是真实 Q 值的下界，与先前的基于模型的离线强化学习算法相比，DOMAIN 是较保守的，并且具有安全策略改进的保证。大量实验证明 DOMAIN 在 D4RL 数据集基准上优于先前的强化学习算法，并且在需要泛化的任务上比其他强化学习算法表现更好。

Sep, 2023

建立分布鲁棒学习和离线强化学习的桥梁：缓解分布偏移和部分数据覆盖的方法

离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决，本文提出了两种使用该框架的离线强化学习算法，并通过模拟实验展示了其优越性能。

Oct, 2023

带有梯度惩罚和约束松弛的鲁棒离线强化学习

本文介绍了解决离线强化学习面临的数据污染问题的一系列技术，包括梯度惩罚和批评家权重约束松弛等方法，并在 D4RL Mujoco 和 Adroit 数据集上进行了实验验证。

Oct, 2022