ICMLAug, 2021

使用数据驱动指导学习任务无关技能

TL;DR本文提出了一种使用学习的状态投影来引导技能发现,从而使得强化学习的代理人在特定任务中获得了更有用的行为。