Feb, 2021

NeoRL: 一种近似于真实环境的离线强化学习基准

TL;DR本文提出了一个名为 NeoRL 的近实际场景离线强化学习基准,对现有的离线 RL 算法进行了评估,并提出了应该将策略的性能与确定性行为策略版本相比较,从而在现实中实现 RL 技术应用的验证和部署。