基于差异性的自监督探索

ICMLJun, 2019

Self-Supervised Exploration via Disagreement

Deepak Pathak, Dhiraj Gandhi, Abhinav Gupta

TL;DR提出了基于活跃学习文献中的一种探索式学习方法，该方法使用动态模型集成，通过最大化这些集成之间的差异性来训练智能体，从而使该智能体自我监督地学习技能，无需外部奖励，并且还利用该探索方法来优化代理的策略而不使用强化学习

Abstract

efficient exploration is a long-standing problem in sensorimotor learning. Major advances have been demonstrated in noise-free, non-stochastic domains such as video games and simulation. However, most of these fo

efficient exploration sensorimotor learning ensemble of dynamics models self-supervised learning sample-efficient exploration

发现论文，激发创造

永不放弃：学习有向探索策略

本篇论文提出了一种基于强化学习和 UVFA 框架的方法，通过学习一系列定向的探索策略来解决难以探索的游戏，并使用轨迹存储和 kNN 算法来构造一种内在奖励信号，以影响策略的学习方式，并在 Atari-57 游戏套件中得到了很好的表现结果。

Feb, 2020

基于模型的主动探索

论文提出了一种高效的 Model-Based Active eXploration (MAX) 算法用于强化学习中的有效探索，该算法使用前向模型的集合来规划观察新事件的行为，优化代理行为，通过基于贝叶斯的探索估计集合成员之间的未来预测差异衡量新颖性，实验证明在半随机离散环境中 MAX 比强基线算法至少高效一个数量级，能够扩展到高维连续环境。

Oct, 2018

基于自监督对抗模仿无标签混合动作的多用途技能控制

本文提出了一种协作对抗式学习方法，用于从包含不同状态转移模式的未标记数据集中最大化它们的可辨识度，获得可控技能集的单一多才策略。实验结果表明，借助生成式对抗模仿学习框架中的无监督技能发现，出现了成功完成任务的新颖有用技能。最后，在名为 Solo 8 的敏捷四足机器人上测试了所获得的多才多艺策略，并呈现出编码在演示中的各种不同技能的忠实复制。

Sep, 2022

基于无监督学习的目标领域非赏值驱动探索

本研究提出使用深度表示学习算法学习目标空间的方法，通过此方法可以发现探索算法，与工程化表示法相比性能表现相匹配。

Mar, 2018

通过指导学习发现技能

在无监督技能发现领域，有限的探索是一个主要挑战，而探索受到技能偏离初始轨迹时的重大惩罚的限制。为了增强探索能力，最近的方法使用辅助奖励来最大化状态的认识不确定性或熵。然而，我们发现这些奖励的有效性随着环境复杂性的增加而下降。因此，我们提出了一种新的无监督技能发现算法，即带有引导的技能发现（DISCO-DANCE），它 (1) 选择具有达到未探索状态潜力最高的引导技能，(2) 引导其他技能跟随引导技能，然后 (3) 引导的技能在未探索的状态下分散以最大化它们的可区分性。实证评估表明，DISCO-DANCE 在具有挑战性的环境中优于其他无监督技能发现基准，包括两个导航基准和一个连续控制基准。DISCO-DANCE 的定性可视化和代码可在此 https URL 上找到。

Oct, 2023

通过乐观探索学习更多技能

用不需要外在奖励的无监督技能学习目标让智能体学会丰富的行为方式。通过同时训练一个生成策略和一个判别模型来实现，其中的困难在于探索新的状态时，判别模型没有足够的数据用于准确地分类技能，我们通过训练一个判别模型的集合并奖励生成策略来解决此问题。我们称之为 DISDAIN 探索奖励，它的表现证明在传统奖励方法中更加有效。

Jul, 2021

利用概率集成神经网络动力学来桥接主动探索和不确定性感知部署

该研究提出了一个基于模型的强化学习框架，将主动探索和不确定性感知部署这两个任务结合了起来，通过 Jensen-Renyi 分歧量化确定性，最终在自主驾驶车辆和轮式机器人上进行了成功的实验。

May, 2023

学习去耦合目标空间的好奇心驱动探索

本文介绍了如何使用内在动机和深度学习算法来有效生成目标空间，提出了使用解耦目标空间可以更好地进行探索，同时利用模块化学习进度驱动求知型探索，同时发现了环境的独立可控特征。

Jul, 2018

机器人中的有效动作无监督学习

提出一种无监督算法来离散化连续运动空间，并生成不同环境效果的 “动作原型”，在探索阶段后，该算法自动建立效果的表示，并将运动分组为动作原型，更有可能产生效果的运动比导致可忽略变化的运动表示得更多。我们在模拟的攀爬楼梯强化学习任务上评估了我们的方法，初步结果显示我们的效果驱动离散化在收敛速度和最大奖励方面优于均匀和随机抽样的离散化。

Apr, 2024

机器人强化学习的平滑探索

采用状态相关的探索方法（SDE）来代替当前深度强化学习算法中常用的无结构步骤探索，提出了一种新的通用状态相关探索方法 (gSDE)，通过定期重新采样噪音来解决真实机器人上运动抖动的问题，在仿真环境和三个不同的真实机器人上进行了评估并提高了表现。

May, 2020