Oct, 2020

OPAL: 离线原始探索以加速离线强化学习

TL;DR本论文研究了如何利用离线数据中的原始行为来优化强化学习模型,在一系列基准测试中取得了不错的成果并证明了其有效性。