Nov, 2019

机械状态抽象与可证明高效丰富观测强化学习

TL;DR本文提出了一种探索和强化学习算法HOMER,可以在图像等场景的高维观测环境中完成学习,能够有效提取问题的抽象状态,并应用将其转化为最优策略,相比标准的强化学习基线算法,HOMER具有更高的样本效率。