关键词unsupervised skill discovery
搜索结果 - 17
- 学习理想技能的要点与禁忌:通过教学视频
使用 DoDont 算法,在无监督的技能发现中,通过利用指令学习阶段和技能学习阶段结合,可以有效地学习复杂连续控制任务中的理想行为和避免不良行为。
- 通过指导学习发现技能
在无监督技能发现领域,有限的探索是一个主要挑战,而探索受到技能偏离初始轨迹时的重大惩罚的限制。为了增强探索能力,最近的方法使用辅助奖励来最大化状态的认识不确定性或熵。然而,我们发现这些奖励的有效性随着环境复杂性的增加而下降。因此,我们提出了 - ICML变分课程增强学习用于无监督技能发现
基于互信息的强化学习作为一种无需任务导向奖励函数的复杂技能自主检索方法已被提出,但由于训练技能的顺序会在很大程度上影响样本效率,对于学习复杂技能仍具有挑战性。本文提出了一种名为变分课程强化学习(VCRL)的方法,将变分增强视为内在奖励函数的 - ComSD: 在无监督技能发现中平衡行为质量和多样性
为了解决质量和多样性冲突的问题,论文提出了一种对比的多目标技能发现方法,通过更合理的互信息估计和动态加权的内在奖励来平衡发现行为的质量和多样性,并在挑战性机器人行为发现任务中展示了优秀的性能。
- 基于 Fenchel 二次对偶的多样化离线模仿
我们提出了一种离线技能发现算法,该算法基于互信息目标的最大化,通过 KL 散度进行约束,确保每种技能的状态占用率保持在离线数据集的支持范围内的专家状态占用率附近,从而学习与专家相一致的多样化技能。
- ICML行为对比学习:无监督技能发现
本文提出了一种基于对比学习的无监督技能发现方法,通过得到相似的行为来表征同一种技能, 并使得不同技能产生不同的行为,同时增加状态熵以获得更好的状态覆盖率,实验结果表明,该方法能够产生各种远程技能,并在下游任务中达到有竞争力的表现。
- 通过多样质量种群实现高效的质量多样性优化
本文提出了一种名为 Diverse Quality Species (DQS) 的新型质量 - 多样性算法,能够在不需要存档或事先定义行为范围的情况下,将解决方案分解为独立进化种类,并利用无监督技能发现来学习多样化而高性能的解决方案,在多个 - 可控感知的无监督技能探索
提出了一种新的无监督技能发现方法,名为 CSD,它可以主动寻求难以控制的复杂技能,包括机器人操作和运动技能。该方法使用可控性感知距离函数对状态转换进行评估,并结合距离最大化技能发现方法,在无监督下逐步学习更具挑战性的技能,在六个机器人操作和 - 用无监督技能发现进行分层学习,用于高速公路合并应用
本研究提出了一种层次学习方法,该方法使用未经预设奖励功能的无监督技能发现获取运动原语作为动作,可减少基于惩罚奖励机制的强化学习方法的总训练时间,该方法通过模拟实验表明其产生的驾驶员模型能够更快地展现高性能。
- 基于技能的强化学习与内在奖励匹配
本文提出了一种名为 Intrinsic Reward Matching (IRM) 的方法,通过 skill discriminator 将预训练和下游任务微调这两个阶段的学习结合起来,以更好地匹配内在和下游任务奖励,从而有效地利用预训练技 - 基于自监督对抗模仿无标签混合动作的多用途技能控制
本文提出了一种协作对抗式学习方法,用于从包含不同状态转移模式的未标记数据集中最大化它们的可辨识度,获得可控技能集的单一多才策略。实验结果表明,借助生成式对抗模仿学习框架中的无监督技能发现,出现了成功完成任务的新颖有用技能。最后,在名为 So - ICLRLipschitz 约束的无监督技能发现
本文研究无监督技能发现的问题,提出了遵守 Lipschitz 约束的技能发现 (LSD) 方法,通过实验得出 LSD 方法在多任务表现上优于之前的方法,并且其学习到的表示函数可以用于解决下游任务,实现了高维状态空间下对多目标追踪的零样本学习 - 无监督技能发现的对比内在控制
本文提出了一种无监督技能发现算法 Contrastive Intrinsic Control,它可以最大化状态转换和潜在技能向量之间的互信息。该算法对状态转换和技能之间进行对比学习,以学习行为嵌入并将这些嵌入的熵最大化作为内在奖励以促进行为 - 非监督强化学习的信息几何
本文研究发现基于相互信息最大化的无监督技能发现算法不一定对于所有潜在奖励函数都能学出最优技能,但它们提供了一个最优初始状态以最小化对抗选择的奖励函数的遗憾。
- ICMLMinecraft 中的无监督技能发现和技能学习
本文介绍了一种使用无监督技术和自监督学习的状态表征方法,可以帮助强化学习智能体快速学习到基本导航技能。在使用像素地图进行评估时,我们发现像素表示和条件政策学习适用于玩具例子,但不适用于逼真和复杂的地图。因此我们还研究了相对位移等替代观测输入 - ICML基于瓶颈选项学习的无监督技能发现
本文提出了一种新颖的无监督技能发现方法 —— 信息瓶颈选项学习 (IBOL),它能够通过推动更多的不同状态转换来吸收环境中固有的技能,并通过信息瓶颈框架对这些技能进行抽象,从而提高了稳定性和可分离性。实验证明,IBOL 在 MuJoCo 环 - 无监督离策略强化学习实现真实世界机器人技能
本文提出的无监督技能发现算法可用于进行高效无监督增强学习,通过模型预测控制将学习到的技能组合用于目标导航。