Mar, 2021

S4RL:离线强化学习的惊人简单自监督

TL;DR本文旨在通过对状态空间进行数据扩充来提高线下强化学习算法的泛化性能,并结合最先进的 Q-learning 技术,通过平滑学习到的状态 - 动作空间,实现在 MetaWorld 和 RoboSuite 等机器人学习环境以及 D4RL 数据集上显著的提升。