Oct, 2018

使用生成回放进行强化学习的连续状态表示学习

TL;DR本研究针对建立连续学习中的状态表示模型问题展开讨论,为保留过去知识的同时高效压缩感知状态信息,我们提出了使用变分自编码器(Variational Auto-Encoders)作为状态表示,并基于生成样本的生成回放(Generative Replay)技术来保持过去知识。我们还提供了一种统计意义上合理的自动环境变化检测方法。该方法不仅可提供高效的状态表示和前向传递,还可避免灾难性遗忘。最后得出的模型能够在有限系统空间内逐增学习,无需使用过去数据。