ICMLJun, 2021

基于瓶颈选项学习的无监督技能发现

TL;DR本文提出了一种新颖的无监督技能发现方法 —— 信息瓶颈选项学习 (IBOL),它能够通过推动更多的不同状态转换来吸收环境中固有的技能,并通过信息瓶颈框架对这些技能进行抽象,从而提高了稳定性和可分离性。实验证明,IBOL 在 MuJoCo 环境中的信息熵评估和下游任务中的性能超过了多种最先进的无监督技能发现方法。