通过乐观探索学习更多技能
在无监督技能发现领域,有限的探索是一个主要挑战,而探索受到技能偏离初始轨迹时的重大惩罚的限制。为了增强探索能力,最近的方法使用辅助奖励来最大化状态的认识不确定性或熵。然而,我们发现这些奖励的有效性随着环境复杂性的增加而下降。因此,我们提出了一种新的无监督技能发现算法,即带有引导的技能发现(DISCO-DANCE),它 (1) 选择具有达到未探索状态潜力最高的引导技能,(2) 引导其他技能跟随引导技能,然后 (3) 引导的技能在未探索的状态下分散以最大化它们的可区分性。实证评估表明,DISCO-DANCE 在具有挑战性的环境中优于其他无监督技能发现基准,包括两个导航基准和一个连续控制基准。DISCO-DANCE 的定性可视化和代码可在此 https URL 上找到。
Oct, 2023
本文提出了一种基于对比学习的无监督技能发现方法,通过得到相似的行为来表征同一种技能, 并使得不同技能产生不同的行为,同时增加状态熵以获得更好的状态覆盖率,实验结果表明,该方法能够产生各种远程技能,并在下游任务中达到有竞争力的表现。
May, 2023
本文提出了一种名为 ' 探索、发现、学习 '(Explore, Discover and Learn, EDL)的方法,用于在没有面向任务的奖励功能的情况下获取技能,从而解决现有信息理论技能探索算法的覆盖问题,并在受控环境中进行全面的评估
Feb, 2020
本文研究无监督技能发现的问题,提出了遵守 Lipschitz 约束的技能发现 (LSD) 方法,通过实验得出 LSD 方法在多任务表现上优于之前的方法,并且其学习到的表示函数可以用于解决下游任务,实现了高维状态空间下对多目标追踪的零样本学习。
Feb, 2022
本文介绍了一种针对强化学习中 reward 缺失问题的无监督学习方法,使用互信息框架,引入了 UPSIDE 方法,解决了探索空间覆盖度和导向性之间的平衡问题,通过学习一组多样化的技能,将其组成可不断扩展的树来解决稀疏 reward 任务。在多个导航和控制任务中通过 UPSIDE 方法学习的技能比现有基准表现更好。
Oct, 2021
本文提出了一种基于好奇心驱动的多智能体共探算法,旨在鼓励多智能体在合作环境中探索独特而有意义的动作以达到最佳表现。实验表明,这种好奇心驱动的探索方法能够有效促进多智能体整体探索并提升共同导航任务中稀疏奖励的 MARL 算法的表现。
Oct, 2022
通过在预先收集的智能体行为数据集上回溯计算潜在目标来加速内在目标的开发,并对七个智能体、三款 Atari 游戏和 3D 游戏 Minecraft 进行了输入熵、信息增益和授权效应的研究,发现所有三个内在目标与人类相似性度量的相关性都比任务奖励更强,特别是输入熵和信息增益与人类相似性的相关性比任务奖励更强,这表明可以利用内在目标来设计表现类似于人类玩家的智能体。
Dec, 2020
本文提出了一种通过最大化状态访问的 Wasserstein 距离学习最大化技能的代理奖励的方法,这种方法比基于多样性的目标导向策略在 MDP 中的覆盖范围更广, 并在各种 Atari 环境中验证了结果。
Oct, 2021
本文提出了一种无需奖励函数却能学习有用技能的方法 DIAYN(“多样性就是你所需的一切”),其通过最大化信息理论目标来实现技能的学习,在多项模拟机器人任务中取得了良好的表现,并且能够服务于其它强化学习相关的挑战。
Feb, 2018