Jun, 2020

批评正则化回归

TL;DR本文提出了一种基于评价器正则化回归算法(CRR)的新型离线强化学习算法,它能够在高维状态和动作空间下解决固定数据集的离线学习问题,在广泛的基准任务上表现出优越性能。