稳健离线深度强化学习中克服模型偏差

Aug, 2020

稳健离线深度强化学习中克服模型偏差

Overcoming Model Bias for Robust Offline Deep Reinforcement Learning

Phillip Swazinna, Steffen Udluft, Thomas Runkler

TL;DR本研究提出了一种基于动力学模型的离线策略搜索算法 MOOSE，使用动力学模型评估策略的性能，得出了比当下主流的无模型、离线强化学习算法 BRAC、BEAR 和 BCQ 更稳健的结果。

Abstract

State-of-the-art reinforcement learning algorithms mostly rely on being allowed to directly interact with their environment to collect millions of observations. This makes it hard to transfer their success to industrial control problems, where simulations are often very costly or do no

reinforcement learning offline rl algorithms dynamics models policy performance robustness

发现论文，激发创造

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法 (MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

MOReL：基于模型的离线强化学习

本研究提出了基于模型的离线强化学习算法 MOReL，具有模块化设计，可以用于模型生成、不确定性估计、规划等领域，实验结果表明，MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。

May, 2020

COMBO: 保守的离线基于模型的策略优化

该研究提出一种新的基于模型的线下强化学习算法（COMBO），该算法不需要显式的不确定性估计，通过对已学习模型下的滚动状态动作元组进行价值函数正则化，从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限，且实验表明与先前的线下模型自由和基于模型的方法相比，COMBO 在广泛研究的线下 RL 基准测试中表现持续改进。

Feb, 2021

交替离线模型训练和策略学习的统一框架

本文提出了一种迭代离线模型学习 (MBRL) 框架，其中通过交替进行动态模型训练和策略学习来最大化真实预期回报的下限，从而解决了动态模型和策略学习之间的目标不匹配问题，从而在广泛的连续控制离线强化学习数据集上实现了竞争性能。

Oct, 2022

基于模型的离线策略优化与对抗网络

使用对抗学习建立具有更好泛化性能的转移模型，能够更准确地量化模型不确定性，并在广泛研究的离线强化学习基准测试中胜过现有最先进的对照方法。

Sep, 2023

MICRO: 基于模型的离线强化学习与保守贝尔曼算子

提出了一种新的基于模型的离线学习算法 MICRO，通过引入鲁棒的 Bellman 操作符在性能和稳健性之间进行权衡，可以显著降低计算成本并在离线学习基准测试中优于先前的 RL 算法，对敌对扰动也相当稳健。

Dec, 2023

MoMA: 基于模型的蜂道上升算法用于离线强化学习

利用模型为基础的镜像爬升算法 (MoMA) 在部分离线数据覆盖下，采用通用函数逼近能力，通过在策略评估步骤中的转移模型置信区间内的最小化过程来保守估计值函数，然后在策略改进步骤中使用通用函数逼近而不是常用的参数策略类，从而充分利用模型为基础方法中固有的无限制策略空间，并且通过对返回策略的次优性建立理论保证。

Jan, 2024

提高基于模型的离线强化学习的确定性不确定性传播

利用动量匹配离线模型优化的方法 (MOMBO)，通过确定性传播不确定性，解决了模型基于离线强化学习中由于过度惩罚导致次优策略问题的挑战，并通过在各种环境中的实证研究证明 MOMBO 是更稳定和更高效的方法。

Jun, 2024

行为预期和动态模型：改进离线强化学习的性能和领域转移

本文提出了一种 Offline Model-based RL with Adaptive Behavioral Priors（MABE）算法，利用数据集的动力学模型和行为先验知识相结合，大大提高了离线 RL 策略的性能和泛化能力，在 D4RL 离线 RL 基准测试中表现优异，且具有跨域泛化性能。

Jun, 2021