可控感知的无监督技能探索
本文研究无监督技能发现的问题,提出了遵守 Lipschitz 约束的技能发现 (LSD) 方法,通过实验得出 LSD 方法在多任务表现上优于之前的方法,并且其学习到的表示函数可以用于解决下游任务,实现了高维状态空间下对多目标追踪的零样本学习。
Feb, 2022
为了解决质量和多样性冲突的问题,论文提出了一种对比的多目标技能发现方法,通过更合理的互信息估计和动态加权的内在奖励来平衡发现行为的质量和多样性,并在挑战性机器人行为发现任务中展示了优秀的性能。
Sep, 2023
在无监督技能发现领域,有限的探索是一个主要挑战,而探索受到技能偏离初始轨迹时的重大惩罚的限制。为了增强探索能力,最近的方法使用辅助奖励来最大化状态的认识不确定性或熵。然而,我们发现这些奖励的有效性随着环境复杂性的增加而下降。因此,我们提出了一种新的无监督技能发现算法,即带有引导的技能发现(DISCO-DANCE),它 (1) 选择具有达到未探索状态潜力最高的引导技能,(2) 引导其他技能跟随引导技能,然后 (3) 引导的技能在未探索的状态下分散以最大化它们的可区分性。实证评估表明,DISCO-DANCE 在具有挑战性的环境中优于其他无监督技能发现基准,包括两个导航基准和一个连续控制基准。DISCO-DANCE 的定性可视化和代码可在此 https URL 上找到。
Oct, 2023
本文提出了一种由人类辅助训练的学习机制 ——“受控多样性和偏好学习”,以确保学到的技能不仅是多样的,而且符合人类期望,在 2D 导航和 Mujoco 环境中得到了验证。
Mar, 2023
本文提出了一种基于对比学习的无监督技能发现方法,通过得到相似的行为来表征同一种技能, 并使得不同技能产生不同的行为,同时增加状态熵以获得更好的状态覆盖率,实验结果表明,该方法能够产生各种远程技能,并在下游任务中达到有竞争力的表现。
May, 2023
本文提出了一种称为 DISCS 的学习方法,通过最大化技能和状态间的互信息,学习一种可能的无数不同技能,其中每一个技能对应于球面上的连续值,并且通过在 MuJoCo Ant 机器人控制环境中的实验显示,DISCS 可以比其他方法学习到更多元化的技能。
May, 2023
本文提出了一种协作对抗式学习方法,用于从包含不同状态转移模式的未标记数据集中最大化它们的可辨识度,获得可控技能集的单一多才策略。实验结果表明,借助生成式对抗模仿学习框架中的无监督技能发现,出现了成功完成任务的新颖有用技能。最后,在名为 Solo 8 的敏捷四足机器人上测试了所获得的多才多艺策略,并呈现出编码在演示中的各种不同技能的忠实复制。
Sep, 2022
本文提出了一种名为 ' 探索、发现、学习 '(Explore, Discover and Learn, EDL)的方法,用于在没有面向任务的奖励功能的情况下获取技能,从而解决现有信息理论技能探索算法的覆盖问题,并在受控环境中进行全面的评估
Feb, 2020
本文提出了一种基于无人监督学习的算法,用于训练代理达成感知确定目标,通过学习目标条件化策略和目标实现奖励函数,代理人能够在没有手工奖励或专业数据的情况下掌握环境的控制方法。
Nov, 2018
通过结合基于模型的和基于非模型的机器学习方法,本文提出了一种无监督学习算法 DADS,用于发现易于预测的行为和学习它们的动态,提高了规划算法的效率和性能。
Jul, 2019