基于约束惩罚的 Q-learning 算法用于安全离线强化学习

ICMLJul, 2021

基于约束惩罚的 Q-learning 算法用于安全离线强化学习

Constraints Penalized Q-learning for Safe Offline Reinforcement Learning

Haoran Xu, Xianyuan Zhan, Xiangyu Zhu

TL;DR本研究探讨了在仅使用离线数据的情况下学习最大化长期收益的策略，同时满足安全性约束的安全离线强化学习问题，提出了基于约束惩罚的 Q 学习算法来解决该问题，并且在多个基准任务中进行了实验验证，表明该算法在数据效率和性能方面都优于其他基线算法。

Abstract

We study the problem of safe offline reinforcement learning (RL), the goal is to learn a policy that maximizes long-term reward while satisfying safety constraints given only offline data, without further interaction with the environment. This problem is more appealing for real world R

safe offline reinforcement learning safety constraints cpq algorithm data efficiency mixed behavior policies

发现论文，激发创造

带有梯度惩罚和约束松弛的鲁棒离线强化学习

本文介绍了解决离线强化学习面临的数据污染问题的一系列技术，包括梯度惩罚和批评家权重约束松弛等方法，并在 D4RL Mujoco 和 Adroit 数据集上进行了实验验证。

Oct, 2022

仅受罚 Q 学习用于离线强化学习

本文提出了一种约束性的离线强化学习方法 EPQ，通过有选择地对易产生估计误差的状态施加惩罚，有效降低估计偏差和提升性能。

May, 2024

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

使用不匹配约束策略加速安全强化学习

提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题，其中基准策略可以来自示范数据或教师代理，并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中，该算法始终优于多个最先进的基线算法，并在平均回报上提高了 40％，约 10 倍少的约束违规行为。

Jun, 2020

离线安全强化学习的约束决策 Transformer

该论文研究了如何从离线数据集中学习到一个安全政策，提出了一种多目标优化的方法，并通过 “ε- 可减” 向量量化了问题难度，发现在安全性和任务性能之间存在平衡，于是提出了一种 “受限决策 Transformer” 方法并进行了实验，结果表明我们的方法比其他方法在各种任务中都表现出更好更安全和更高的效益。

Feb, 2023

带有可行性引导扩散模型的安全离线强化学习

通过可行区域定义的安全约束，最大化可行区域内的回报值并将不可行区域内的安全风险最小化的 FISOR（FeasIbility-guided Safe Offline RL）是唯一可以保证所有任务满足安全要求并在大多数任务上实现最高回报的方法。

Jan, 2024

安全强化学习的约束变分策略优化

该研究通过引入新的期望最大化方法，并从概率推理的角度解决问题，将安全增强学习问题分解为凸优化和监督学习两个阶段，实现了更稳定和更高效的学习表现，并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。

Jan, 2022

多功能安全强化学习的约束条件策略优化

我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架，通过引入 Versatile Value Estimation (VVE) 和 Conditioned Variational Inference (CVI) 两个关键模块，在训练效率和零 - shot 适应能力方面超过基准，同时在安全性和任务性能方面保持一个高水平。

Oct, 2023

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

基于灵活约束的层次强化学习优化

该论文主要研究通过约束条件解决具有复杂安全约束的长期决策问题，提出了一种结合高级有约束规划代理和低级目标条件强化学习代理的机制，能够处理成本分布的约束，并在实验中验证了其实用性。

Feb, 2023