NIPSApr, 2018

利用隐空间动态模型的信息最大化探索

TL;DR本文提出一种基于模型行动选择的强化学习方法,该方法在价值函数的潜在特征空间中学习动态模型,实现机器人和环境的动态表示和模型自我激励,从而解决传统方法当中的探索与利用权衡问题,并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能,重点是改善探索。