Oct, 2021

深度强化学习中被动学习的困难

TL;DR本文章研究了在没有积极的环境交互的情况下从观测数据学习行动的机制,并引入了“tandem learning”实验模型来帮助理解离线强化学习的挑战,并发现函数逼近与固定数据分布是离线深度强化学习中最强的因素,对离线深度强化学习提供了有价值的见解,同时也为在线控制学习中观察到的现象提供了新的解释。