Jun, 2020

深度强化学习和信息最大化学习

TL;DR本文介绍了一种基于 Deep InfoMax (DIM) 的训练方法,目的是让模型预测未来状态,从而提高处理强化学习问题的性能。测试表明,这种方法在多个人工场景中学到了预测未来状态的表示,并应用于 C51 模型中,在连续学习任务和 Procgen 环境中实现了性能提升。