通过乐观探索学习更多技能

ICLRJul, 2021

Learning more skills through optimistic exploration

DJ Strouse, Kate Baumli, David Warde-Farley, Vlad Mnih, Steven Hansen

TL;DR用不需要外在奖励的无监督技能学习目标让智能体学会丰富的行为方式。通过同时训练一个生成策略和一个判别模型来实现，其中的困难在于探索新的状态时，判别模型没有足够的数据用于准确地分类技能，我们通过训练一个判别模型的集合并奖励生成策略来解决此问题。我们称之为 DISDAIN 探索奖励，它的表现证明在传统奖励方法中更加有效。

Abstract

unsupervised skill learning objectives (Gregor et al., 2016, Eysenbach et al., 2018) allow agents to learn rich repertoires of behavior in the absence of extrinsic rewards. They work by simultaneously training a policy to produce distinguishable →

unsupervised skill learning objectives latent-conditioned trajectories discriminator exploration problem disdain

发现论文，激发创造

通过指导学习发现技能

在无监督技能发现领域，有限的探索是一个主要挑战，而探索受到技能偏离初始轨迹时的重大惩罚的限制。为了增强探索能力，最近的方法使用辅助奖励来最大化状态的认识不确定性或熵。然而，我们发现这些奖励的有效性随着环境复杂性的增加而下降。因此，我们提出了一种新的无监督技能发现算法，即带有引导的技能发现（DISCO-DANCE），它 (1) 选择具有达到未探索状态潜力最高的引导技能，(2) 引导其他技能跟随引导技能，然后 (3) 引导的技能在未探索的状态下分散以最大化它们的可区分性。实证评估表明，DISCO-DANCE 在具有挑战性的环境中优于其他无监督技能发现基准，包括两个导航基准和一个连续控制基准。DISCO-DANCE 的定性可视化和代码可在此 https URL 上找到。

Oct, 2023

使用数据驱动指导学习任务无关技能

本文提出了一种使用学习的状态投影来引导技能发现，从而使得强化学习的代理人在特定任务中获得了更有用的行为。

Aug, 2021

行为对比学习：无监督技能发现

本文提出了一种基于对比学习的无监督技能发现方法，通过得到相似的行为来表征同一种技能，并使得不同技能产生不同的行为，同时增加状态熵以获得更好的状态覆盖率，实验结果表明，该方法能够产生各种远程技能，并在下游任务中达到有竞争力的表现。

May, 2023

探索、发现与学习：基于无监督方式的状态覆盖技能发现

本文提出了一种名为 ' 探索、发现、学习 '（Explore, Discover and Learn, EDL）的方法，用于在没有面向任务的奖励功能的情况下获取技能，从而解决现有信息理论技能探索算法的覆盖问题，并在受控环境中进行全面的评估

Feb, 2020

Lipschitz 约束的无监督技能发现

本文研究无监督技能发现的问题，提出了遵守 Lipschitz 约束的技能发现 (LSD) 方法，通过实验得出 LSD 方法在多任务表现上优于之前的方法，并且其学习到的表示函数可以用于解决下游任务，实现了高维状态空间下对多目标追踪的零样本学习。

Feb, 2022

直达而散射：增量式无监督技能发现以实现状态覆盖和目标达成

本文介绍了一种针对强化学习中 reward 缺失问题的无监督学习方法，使用互信息框架，引入了 UPSIDE 方法，解决了探索空间覆盖度和导向性之间的平衡问题，通过学习一组多样化的技能，将其组成可不断扩展的树来解决稀疏 reward 任务。在多个导航和控制任务中通过 UPSIDE 方法学习的技能比现有基准表现更好。

Oct, 2021

以混合目标为驱动的好奇心多智能体探索

本文提出了一种基于好奇心驱动的多智能体共探算法，旨在鼓励多智能体在合作环境中探索独特而有意义的动作以达到最佳表现。实验表明，这种好奇心驱动的探索方法能够有效促进多智能体整体探索并提升共同导航任务中稀疏奖励的 MARL 算法的表现。

Oct, 2022

无奖励评估代理

通过在预先收集的智能体行为数据集上回溯计算潜在目标来加速内在目标的开发，并对七个智能体、三款 Atari 游戏和 3D 游戏 Minecraft 进行了输入熵、信息增益和授权效应的研究，发现所有三个内在目标与人类相似性度量的相关性都比任务奖励更强，特别是输入熵和信息增益与人类相似性的相关性比任务奖励更强，这表明可以利用内在目标来设计表现类似于人类玩家的智能体。

Dec, 2020

最大化 Wasserstein 距离的内在控制

本文提出了一种通过最大化状态访问的 Wasserstein 距离学习最大化技能的代理奖励的方法，这种方法比基于多样性的目标导向策略在 MDP 中的覆盖范围更广，并在各种 Atari 环境中验证了结果。

Oct, 2021

多样性即是你所需：无需奖励函数学习技能

本文提出了一种无需奖励函数却能学习有用技能的方法 DIAYN（“多样性就是你所需的一切”），其通过最大化信息理论目标来实现技能的学习，在多项模拟机器人任务中取得了良好的表现，并且能够服务于其它强化学习相关的挑战。

Feb, 2018