Oct, 2021

直达而散射:增量式无监督技能发现以实现状态覆盖和目标达成

TL;DR本文介绍了一种针对强化学习中 reward 缺失问题的无监督学习方法,使用互信息框架,引入了 UPSIDE 方法,解决了探索空间覆盖度和导向性之间的平衡问题,通过学习一组多样化的技能,将其组成可不断扩展的树来解决稀疏 reward 任务。在多个导航和控制任务中通过 UPSIDE 方法学习的技能比现有基准表现更好。