Nov, 2018

通过自我对抗学习用于层次强化学习的目标嵌入

TL;DR本研究旨在应对层次化强化学习中确定合适的低级策略的挑战,提出基于不对称自我对弈的无监督学习方案,自动学习环境中子目标的好的表示和可执行的低级策略,从而高级策略可以通过生成连续子目标向量序列来指导低级策略。实验结果表明,该模型在 Mazebase 和 Mujoco 环境中获得了令人信服的性能提升。