Oct, 2022

带有梯度惩罚和约束松弛的鲁棒离线强化学习

TL;DR本文介绍了解决离线强化学习面临的数据污染问题的一系列技术,包括梯度惩罚和批评家权重约束松弛等方法,并在 D4RL Mujoco 和 Adroit 数据集上进行了实验验证。