一个接着一个：为一个不断变化的世界学习增量技能

Mar, 2022

一个接着一个：为一个不断变化的世界学习增量技能

One After Another: Learning Incremental Skills for a Changing World

Nur Muhammad Shafiullah, Lerrel Pinto

TL;DR该研究提出了一种新的技能发现的架构，通过递增学习的方式获得新技能，以适应不断变化的环境，并且在质量和下游任务解决能力方面显著优于现有方法。

Abstract

Reward-free, unsupervised discovery of skills is an attractive alternative to the bottleneck of hand-designing rewards in environments where task supervision is scarce or expensive. However, current skill pre-training methods, like many rl techniques, make a fundamental assumption - st

发现论文，激发创造

具有动态感知的无监督技能发现

通过结合基于模型的和基于非模型的机器学习方法，本文提出了一种无监督学习算法DADS，用于发现易于预测的行为和学习它们的动态，提高了规划算法的效率和性能。

Jul, 2019

探索、发现与学习：基于无监督方式的状态覆盖技能发现

本文提出了一种名为'探索、发现、学习'（Explore, Discover and Learn, EDL）的方法，用于在没有面向任务的奖励功能的情况下获取技能，从而解决现有信息理论技能探索算法的覆盖问题，并在受控环境中进行全面的评估

Feb, 2020

学习技能先验加速强化学习

通过学习技能先验分布，将其用于最大熵强化学习，能够在导航和机器人操作任务中实现有效的技能传输。

Oct, 2020

基于重置游戏的控制基元继续学习技能发掘

提出一个能够在解决真实世界中很多挑战的同时，通过学习'重置技能'来帮助代理人更有效地学习技能的通用博弈形式方法，并实验表明该方法可以显著提高代理人的表现和加速后续学习。

Nov, 2020

直达而散射：增量式无监督技能发现以实现状态覆盖和目标达成

本文介绍了一种针对强化学习中 reward 缺失问题的无监督学习方法，使用互信息框架，引入了 UPSIDE 方法，解决了探索空间覆盖度和导向性之间的平衡问题，通过学习一组多样化的技能，将其组成可不断扩展的树来解决稀疏 reward 任务。在多个导航和控制任务中通过 UPSIDE 方法学习的技能比现有基准表现更好。

Oct, 2021

残差技能策略：学习适应性技能基础的动作空间，用于机器人增强学习

通过使用状态条件生成模型在技能空间中加速探索，同时提出低层次的剩余策略来适应未知的任务变化，从而在与先前工作的比较中显着加快了探索速度，并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。

Nov, 2022

SkillS: 自适应技能序列用于高效的时间扩展探索

我们提出了一种在多个领域中比现有方法更出色的技能转移方法，通过学习现有的时间扩展技能序列来进行探索，并直接从原始经验中学习最终策略，实现快速适应和高效数据收集。

Nov, 2022

APART: 采用升序奖励和丢弃法的多样化技能发现

在无奖励环境中研究多样化技能发现，使用内在奖励和一个通过轨迹预测技能的判别器进行技能的相互训练，通过使用所有对组合的判别器、新颖的内在奖励函数和辍学正则化技术的方式，取代了标准的一对多（softmax）判别器，所提出的组合方法命名为APART，在简单的网格环境中比以前的方法大大减少了样本数量，研究探究了更简单的算法，通过改变VIC、重新调整内在奖励和调整softmax判别器的温度来实现最大技能，我们相信我们的研究结果揭示了强化学习中技能发现算法成功的关键因素。

Aug, 2023

加入技能发现

语言驱动的机器人技能研究中，通过利用大规模语言模型的高级推理能力应用于低级机器人控制，继续面临的挑战是获取多样化的基础技能。本研究介绍了一种完全由语言模型驱动的技能发现框架，通过提供的场景描述和机器人配置生成任务提案，并逐步获得新的技能来完成任务，使用强化学习过程以及独立的视觉-语言模型确保学到的行为的可靠性和可信度，从而使机器人能够高效地提出和完成高级任务。

May, 2024

单一目标足矣：技能与探索在无奖励、无示范或子目标的对比强化学习中涌现

本研究解决了在没有奖励、示范或子目标的情况下，如何从对比强化学习中自发涌现技能和有目的探索的问题。通过简单的算法修改，研究表明，智能体能够在仅仅通过观察目标状态的情况下，自主学习技能，并在不依赖任何额外参数的情况下有效进行探索。其发现为理解低资源情况下的智能体学习提供了新视角，具有重要的影响潜力。

Aug, 2024