单一目标足矣：技能与探索在无奖励、无示范或子目标的对比强化学习中涌现

Aug, 2024

单一目标足矣：技能与探索在无奖励、无示范或子目标的对比强化学习中涌现

A Single Goal is All You Need: Skills and Exploration Emerge from Contrastive RL without Rewards, Demonstrations, or Subgoals

HTML

PDF

Grace Liu, Michael Tang, Benjamin Eysenbach

TL;DR本研究解决了在没有奖励、示范或子目标的情况下，如何从对比强化学习中自发涌现技能和有目的探索的问题。通过简单的算法修改，研究表明，智能体能够在仅仅通过观察目标状态的情况下，自主学习技能，并在不依赖任何额外参数的情况下有效进行探索。其发现为理解低资源情况下的智能体学习提供了新视角，具有重要的影响潜力。

Abstract

In this paper, we present empirical evidence of skills and directed Exploration emerging from a simple RL algorithm long before any successful trials are observed. For example, in a manipulation task, the agent is given a single observation of the goal state and learns skills, first fo

发现论文，激发创造

连续控制中前瞻探索的模型学习

本文提出了一种探索方法，将先前学习的基本技能及其动态与前瞻性搜索相结合，用于操作策略的强化学习，并且表明该方法比当前最先进的RL方法更快地学习到复杂操作策略，并获得更好的策略收敛结果。

Nov, 2018

探索、发现与学习：基于无监督方式的状态覆盖技能发现

本文提出了一种名为'探索、发现、学习'（Explore, Discover and Learn, EDL）的方法，用于在没有面向任务的奖励功能的情况下获取技能，从而解决现有信息理论技能探索算法的覆盖问题，并在受控环境中进行全面的评估

Feb, 2020

先回报，后探索

Go-Explore算法通过显式地记住有前途的状态并在有意探索之前首先回到这些状态的简单原则，直接解决了探索中的“detach”和“derailment”问题，并在所有难探索游戏上超越了现有技术，并在稀疏奖励抓取放置机器人任务上展示了其实际潜力。

Apr, 2020

机器人操作中的自对称自我对弈用于自动目标发现

通过不对人类先验假设的依赖，我们可以通过非对称自我博弈的方法训练出只需稀疏奖励的 Bob，并且他可以从 Alice 的轨迹中学习，以实现目标发现和机器人操作的一体化控制。

Jan, 2021

直达而散射：增量式无监督技能发现以实现状态覆盖和目标达成

本文介绍了一种针对强化学习中 reward 缺失问题的无监督学习方法，使用互信息框架，引入了 UPSIDE 方法，解决了探索空间覆盖度和导向性之间的平衡问题，通过学习一组多样化的技能，将其组成可不断扩展的树来解决稀疏 reward 任务。在多个导航和控制任务中通过 UPSIDE 方法学习的技能比现有基准表现更好。

Oct, 2021

利用预训练技能来拓展目标勘探，用于稀疏奖励长时间尺度的目标条件加强学习

本文提出了一种新的学习目标，通过优化已实现和未来需要探索的目标的熵，以更高效地探索子目标选择基于GCRL，该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。

Oct, 2022

通过修剪原型目标扩展目标导向探索的规模

本研究基于强化学习，通过在人工设计产生的广泛目标空间中寻找可控、可达、新颖和相关目标的自主发现过程，弥补探索广域领域中新奇性和涵盖性行为不足的问题，并在三种具有挑战性的环境中证明了目标导向的探索的有效性。

Feb, 2023

加入技能发现

语言驱动的机器人技能研究中，通过利用大规模语言模型的高级推理能力应用于低级机器人控制，继续面临的挑战是获取多样化的基础技能。本研究介绍了一种完全由语言模型驱动的技能发现框架，通过提供的场景描述和机器人配置生成任务提案，并逐步获得新的技能来完成任务，使用强化学习过程以及独立的视觉-语言模型确保学到的行为的可靠性和可信度，从而使机器人能够高效地提出和完成高级任务。

May, 2024

技能何时帮助强化学习？对时间抽象的理论分析

技能在分层强化学习中通过临时抽象旨在提高强化学习性能。我们首次提供对确定性技能在确定性稀疏奖励环境和有限动作空间中的效用进行准确描述的研究，理论和实证结果表明，状态解决方案的压缩性较低的环境中强化学习的技能优势较小，技能对于探索比现有经验的学习更具益处，使用宏动作等表达能力有限的技能可能会降低强化学习性能。我们希望这些发现可以指导自动技能发现的研究，并帮助强化学习从业者在何时如何使用技能上做出更好的决策。

Jun, 2024

通过继任状态度量学习多样技能的探索

通过最大化互信息和探索奖励，我们的LEADS方法能够在不依赖奖励或探索奖励的情况下构建全面覆盖状态空间的多样化技能集合。

Jun, 2024