ICMLApr, 2022

双仿关系在目标条件强化学习中的应用

TL;DR提出了一种名为 Goal-conditioned bisimulation 的状态抽象形式来捕捉功能等变性,该方法可以让代理器在没有明确目标的情况下从先前的行为中学习新的目标,并且证明其可以适用于任何由纯状态奖励函数描述的下游任务