Mar, 2021

正则化行为价值估计

TL;DR本文提出一种基于离线强化学习的新方法 Regularized Behavior Value Estimation (R-BVE),用于解决离线学习中过度估计值所导致的错误问题,该方法在 RL Unplugged ATARI 数据集以及其他数据集上取得了 state-of-the-art 的表现。