MICRO: 基于模型的离线强化学习与保守贝尔曼算子

Dec, 2023

MICRO: 基于模型的离线强化学习与保守贝尔曼算子

MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator

Xiao-Yin Liu, Xiao-Hu Zhou, Guo-Tao Li, Hao Li, Mei-Jiang Gui...

TL;DR提出了一种新的基于模型的离线学习算法 MICRO，通过引入鲁棒的 Bellman 操作符在性能和稳健性之间进行权衡，可以显著降低计算成本并在离线学习基准测试中优于先前的 RL 算法，对敌对扰动也相当稳健。

Abstract

offline reinforcement learning (RL) faces a significant challenge of distribution shift. Model-free offline RL penalizes the Q value for out-of-distribution (OOD) data or constrains the policy closed to the behav

offline reinforcement learning distribution shift model-based offline rl conservative policy optimization micro

发现论文，激发创造

离线强化学习中的温和保守型 Q 学习

提出了一种保守但足够保证泛化性的离线学习算法 Mildly Conservative Q-learning (MCQ)，其中通过分配适当的伪 Q 值来积极地训练 OOD 动作，在 D4RL 数据集上实验结果表明 MCQ 相对于之前的工作取得了显着的性能提升和优异的泛化能力。

Jun, 2022

COMBO: 保守的离线基于模型的策略优化

该研究提出一种新的基于模型的线下强化学习算法（COMBO），该算法不需要显式的不确定性估计，通过对已学习模型下的滚动状态动作元组进行价值函数正则化，从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限，且实验表明与先前的线下模型自由和基于模型的方法相比，COMBO 在广泛研究的线下 RL 基准测试中表现持续改进。

Feb, 2021

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

基于逆向模型想象的离线强化学习

针对离线强化学习模型的学习策略和给定数据集之间的分布变化这一难题，提出了一种新的基于模型的离线强化学习框架，名为 ROMI，它通过学习一个反向动力学模型和一种新颖的反向策略，可以在离线数据集内生成无风险 imagination，并启用 model-free 策略学习和保守性的泛化。实证结果表明，该方法能够生成更为保守的行为，并取得最先进的离线强化学习基准任务的表现。

Oct, 2021

提高基于模型的离线强化学习的确定性不确定性传播

利用动量匹配离线模型优化的方法 (MOMBO)，通过确定性传播不确定性，解决了模型基于离线强化学习中由于过度惩罚导致次优策略问题的挑战，并通过在各种环境中的实证研究证明 MOMBO 是更稳定和更高效的方法。

Jun, 2024

领域：温和保守的基于模型的离线强化学习

这篇论文提出了一种不需要模型不确定性估计的温和保守型基于模型的离线强化学习算法 (DOMAIN)，通过引入模型样本的自适应抽样分布来调整模型数据惩罚，理论上证明了该算法在区域外学习到的 Q 值是真实 Q 值的下界，与先前的基于模型的离线强化学习算法相比，DOMAIN 是较保守的，并且具有安全策略改进的保证。大量实验证明 DOMAIN 在 D4RL 数据集基准上优于先前的强化学习算法，并且在需要泛化的任务上比其他强化学习算法表现更好。

Sep, 2023

稳健离线深度强化学习中克服模型偏差

本研究提出了一种基于动力学模型的离线策略搜索算法 MOOSE，使用动力学模型评估策略的性能，得出了比当下主流的无模型、离线强化学习算法 BRAC、BEAR 和 BCQ 更稳健的结果。

Aug, 2020

保守型离线分布式强化学习

提出了一种适用于风险中性和风险厌恶领域的离线强化学习算法 CODAC，通过对预测收益分位数的度量来适应分布式强化学习，证明 CODAC 学习一个保守收益分布，并在机器人导航任务上成功地学习了风险厌恶策略，表现优于 D4RL MuJoCo 基准测试的方法。

Jul, 2021

使用离线数据的强化学习算法

该论文提出一种名为 RFQI 的稳健强化学习算法，使用离线数据集来优化策略，在标准条件下该算法能够学习到近乎最优的稳健策略，并且在标准基准测试问题上展现出卓越的性能表现。

Aug, 2022

RORL: 基于保守平滑的强化学习离线稳健性算法

本文介绍了一种名为 Robust Offline Reinforcement Learning (RORL) 的保守平滑技术，用于解决当前离线 RL 算法在真实环境中遇到观测扰动时的鲁棒性问题，同时还能在性能和鲁棒性上实现权衡，并取得了非常好的表现。

Jun, 2022