带有梯度惩罚和约束松弛的鲁棒离线强化学习

Oct, 2022

带有梯度惩罚和约束松弛的鲁棒离线强化学习

Robust Offline Reinforcement Learning with Gradient Penalty and Constraint Relaxation

Chengqian Gao, Ke Xu, Liu Liu, Deheng Ye, Peilin Zhao...

TL;DR本文介绍了解决离线强化学习面临的数据污染问题的一系列技术，包括梯度惩罚和批评家权重约束松弛等方法，并在 D4RL Mujoco 和 Adroit 数据集上进行了实验验证。

Abstract

A promising paradigm for offline reinforcement learning (RL) is to constrain the learned policy to stay close to the dataset behaviors, known as policy constraint offline RL. However, existing works heavily rely on the purity of the data, exhibiting performance degradation or even cata

offline reinforcement learning policy constraint contaminated datasets gradient penalty critic weighted constraint relaxation

发现论文，激发创造

百人为导师，百万人引领：自适应离线强化学习与专家指导

离线强化学习中典型问题是分布转移问题，我们提出了一种名为 Guided Offline RL（GORL）的新方法，使用引导网络和少数专家演示样本，自适应确定每个样本的策略改进和策略约束的相对重要性。在各种环境上进行的大量实验表明，GORL 可在大多数离线强化学习算法上轻松安装，并实现统计上显著的性能提升。

Sep, 2023

基于约束惩罚的 Q-learning 算法用于安全离线强化学习

本研究探讨了在仅使用离线数据的情况下学习最大化长期收益的策略，同时满足安全性约束的安全离线强化学习问题，提出了基于约束惩罚的 Q 学习算法来解决该问题，并且在多个基准任务中进行了实验验证，表明该算法在数据效率和性能方面都优于其他基线算法。

Jul, 2021

仅受罚 Q 学习用于离线强化学习

本文提出了一种约束性的离线强化学习方法 EPQ，通过有选择地对易产生估计误差的状态施加惩罚，有效降低估计偏差和提升性能。

May, 2024

批评正则化回归

本文提出了一种基于评价器正则化回归算法（CRR）的新型离线强化学习算法，它能够在高维状态和动作空间下解决固定数据集的离线学习问题，在广泛的基准任务上表现出优越性能。

Jun, 2020

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

政策规范化的离线多目标强化学习

本文致力于利用仅离线轨迹数据训练一个多目标强化学习策略。我们将单目标离线强化学习问题中广泛采用的离线策略正则化方法扩展到多目标设置，以达到上述目标。然而，在离线多目标强化学习设置中，存在新的挑战，即偏好不一致演示问题。我们提出了两个解决方案：1）通过近似行为偏好来过滤偏好不一致的演示，和 2）采用具有高策略表达能力的正则化技术。此外，我们将偏好条件化的标量化更新方法整合到策略正则化的离线强化学习中，以便使用单个策略网络同时学习一组策略，从而减少训练大量不同偏好的个体策略所带来的计算成本。最后，我们引入了正则化权重适应机制，在部署过程中动态确定任意目标偏好的适当正则化权重。各种多目标数据集上的实证结果展示了我们的方法在解决离线多目标强化学习问题方面的能力。

Jan, 2024

闭合形式策略改进算子下的离线强化学习

本研究提出了行为约束的策略优化方法，通过模拟历史状态转移，采用先进的算法，成功地实现了通过行为约束进行离线强化学习。研究中，我们提出了闭式策略改进算子。我们首次发现，行为约束自然促使使用一阶泰勒展开，从而线性逼近策略目标。此外，由于实际数据通常由异构策略收集，因此我们将行为策略建模为高斯混合，并通过利用 LogSumExp 的下界和 Jensen 不等式克服引入的优化困难，得到闭式策略改进算子。我们使用这种新颖的策略改进算子实例化离线 RL 算法，并在标准 D4RL 基准测试上成功地实验验证了其有效性。

Nov, 2022

通过数据集约束的政策正则化用于离线强化学习

本文提出了一种名为 PRDC 的政策正则化算法，该算法通过数据集约束从离线强化学习的数据集中学习最佳政策，能够缓解价值高估问题并在一组机器人应用上实现了最先进的性能．

Jun, 2023

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021