Jun, 2020

深度强化学习在生命周期非稳态环境下的应用

TL;DR在非稳态环境下,我们提出了一种新的离线强化学习算法,该算法使用潜在变量模型,将当前和过去的经验学习环境的表示,并在此表示下执行离线强化学习,实验结果表明这种方法显著优于不考虑环境变化的方法。