CROP：基于模型的线下策略优化的保守奖励

Oct, 2023

CROP：基于模型的线下策略优化的保守奖励

CROP: Conservative Reward for Model-based Offline Policy Optimization

Hao Li, Xiao-Hu Zhou, Xiao-Liang Xie, Shi-Qi Liu, Zhen-Qiu Feng...

TL;DR通过引入保守性估计奖励的方法，本论文提出了一种创新的基于模型的离线增强学习算法，名为 CROP，该算法通过同时最小化估计误差和随机动作的奖励来保守地估计模型训练中的奖励，从而实现保守的策略评估并帮助缓解分布偏移问题。在 D4RL 基准测试中，CROP 的性能与最先进的基准算法相当。值得注意的是，CROP 建立了离线和在线增强学习之间的创新连接，突出了通过采用在线增强学习技术对使用保守奖励训练得到的经验马尔可夫决策过程来解决离线增强学习问题的可行性。

Abstract

offline reinforcement learning (RL) aims to optimize policy using collected data without online interactions. model-based approaches are particularly appealing for addressing offline RL challenges due to their ca

offline reinforcement learning model-based approaches conservatism reward estimation distribution drift

发现论文，激发创造

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

通过函数平滑证明强化学习的稳健策略

本文介绍了一种名为 CROP 的统一框架，该框架旨在提供针对行动和奖励水平的稳健性认证，通过局部平滑算法和全局平滑算法来保证措施的鲁棒性。CROP 被用于评估几种现有的 RL 算法，包括 Atari 游戏和 Highway、CartPole 等环境，并证明了认证的准确性。

Jun, 2021

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法 (MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020

CLARE: 离线反向强化学习中保守的基于模型的奖励学习

该论文提出了一种名为 CLARE 的算法，该算法通过将 “保守性” 纳入学习的奖励函数并利用估计的动力学模型来解决离线逆强化学习中的奖励外推错误问题，其得到的学习奖励函数是高度可指导后续的学习，通过大量实验证明了 CLARE 相较于现有最先进算法在 MuJoCo 连续控制任务上的明显性能提升。

Feb, 2023

COMBO: 保守的离线基于模型的策略优化

该研究提出一种新的基于模型的线下强化学习算法（COMBO），该算法不需要显式的不确定性估计，通过对已学习模型下的滚动状态动作元组进行价值函数正则化，从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限，且实验表明与先前的线下模型自由和基于模型的方法相比，COMBO 在广泛研究的线下 RL 基准测试中表现持续改进。

Feb, 2021

MICRO: 基于模型的离线强化学习与保守贝尔曼算子

提出了一种新的基于模型的离线学习算法 MICRO，通过引入鲁棒的 Bellman 操作符在性能和稳健性之间进行权衡，可以显著降低计算成本并在离线学习基准测试中优于先前的 RL 算法，对敌对扰动也相当稳健。

Dec, 2023

保守型离线分布式强化学习

提出了一种适用于风险中性和风险厌恶领域的离线强化学习算法 CODAC，通过对预测收益分位数的度量来适应分布式强化学习，证明 CODAC 学习一个保守收益分布，并在机器人导航任务上成功地学习了风险厌恶策略，表现优于 D4RL MuJoCo 基准测试的方法。

Jul, 2021

基于逆向模型想象的离线强化学习

针对离线强化学习模型的学习策略和给定数据集之间的分布变化这一难题，提出了一种新的基于模型的离线强化学习框架，名为 ROMI，它通过学习一个反向动力学模型和一种新颖的反向策略，可以在离线数据集内生成无风险 imagination，并启用 model-free 策略学习和保守性的泛化。实证结果表明，该方法能够生成更为保守的行为，并取得最先进的离线强化学习基准任务的表现。

Oct, 2021

策略性保守型 Q 学习

提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架，用于解决离线强化学习中的逼近误差和分布外动作的问题，在 D4RL 基准任务上表现优于现有方法。

Jun, 2024

领域：温和保守的基于模型的离线强化学习

这篇论文提出了一种不需要模型不确定性估计的温和保守型基于模型的离线强化学习算法 (DOMAIN)，通过引入模型样本的自适应抽样分布来调整模型数据惩罚，理论上证明了该算法在区域外学习到的 Q 值是真实 Q 值的下界，与先前的基于模型的离线强化学习算法相比，DOMAIN 是较保守的，并且具有安全策略改进的保证。大量实验证明 DOMAIN 在 D4RL 数据集基准上优于先前的强化学习算法，并且在需要泛化的任务上比其他强化学习算法表现更好。

Sep, 2023