Feb, 2023

使用离线数据进行高效在线强化学习

TL;DR本研究提出了一种简单的方法,利用离线数据来解决在线强化学习中的效率和探索性问题,通过对现有离线策略学习算法进行改进,得出了可以在各种竞争对手的基准测试中比现有方法提高2.5倍的建议。