Oct, 2022
带有梯度惩罚和约束松弛的鲁棒离线强化学习
Robust Offline Reinforcement Learning with Gradient Penalty and Constraint Relaxation
Chengqian Gao, Ke Xu, Liu Liu, Deheng Ye, Peilin Zhao...
TL;DR本文介绍了解决离线强化学习面临的数据污染问题的一系列技术,包括梯度惩罚和批评家权重约束松弛等方法,并在 D4RL Mujoco 和 Adroit 数据集上进行了实验验证。