使用数据驱动指导学习任务无关技能

ICMLAug, 2021

使用数据驱动指导学习任务无关技能

Learning Task Agnostic Skills with Data-driven Guidance

Even Klemsdal, Sverre Herland, Abdulmajid Murad

TL;DR本文提出了一种使用学习的状态投影来引导技能发现，从而使得强化学习的代理人在特定任务中获得了更有用的行为。

Abstract

To increase autonomy in reinforcement learning, agents need to learn useful behaviours without reliance on manually designed reward functions. To that end, →

reinforcement learning skill discovery autonomy task-specific rewards state projection

发现论文，激发创造

探索、发现与学习：基于无监督方式的状态覆盖技能发现

本文提出了一种名为 ' 探索、发现、学习 '（Explore, Discover and Learn, EDL）的方法，用于在没有面向任务的奖励功能的情况下获取技能，从而解决现有信息理论技能探索算法的覆盖问题，并在受控环境中进行全面的评估

Feb, 2020

层次化启动在强化学习技能转移中的应用

本文研究了如何将技能融入强化学习智能体的训练，提出了基于技能的新方法 Hierarchical Kickstarting（HKS），并在复杂环境下的游戏 NetHack 及其他基线测试中验证了其表现优于其他方法，并认为利用预定义技能为具有大的状态 - 动作空间和稀疏奖励的强化学习问题提供了一个有用的归纳偏差。

Jul, 2022

强化学习智能体自动生成目标

提出了一种基于 Adversarial training 的方法，用于 Reinforcement learning 中任务发现的问题，可以实现在不需要任何先验环境知识的情况下，对多元化任务的高效自动学习，并且能够解决传统上存在的稀疏奖励问题。

May, 2017

无参判别奖励的无监督控制

本文提出了一种基于无人监督学习的算法，用于训练代理达成感知确定目标，通过学习目标条件化策略和目标实现奖励函数，代理人能够在没有手工奖励或专业数据的情况下掌握环境的控制方法。

Nov, 2018

通过乐观探索学习更多技能

用不需要外在奖励的无监督技能学习目标让智能体学会丰富的行为方式。通过同时训练一个生成策略和一个判别模型来实现，其中的困难在于探索新的状态时，判别模型没有足够的数据用于准确地分类技能，我们通过训练一个判别模型的集合并奖励生成策略来解决此问题。我们称之为 DISDAIN 探索奖励，它的表现证明在传统奖励方法中更加有效。

Jul, 2021

无任务先验学习实现新任务

本文提出了一种名为任务不可知学习方法（TAL）的学习方法，该方法可从任务不可知数据中学习碎片化知识以完成新任务，TAL 由四个阶段组成：任务不可知探索，知识图表组织，动作特征提取，候选动作生成和动作建议。该方法在虚拟室内场景上的实验表明，它的性能优于当前的强化学习和模仿学习算法。

Sep, 2022

基于演示引导的强化学习与学得技能

本文提出了一种基于示教引导的强化学习方法，该方法通过提取任务中共享的子任务结构，从而显著提高学习效率，并且在迷宫导航和复杂机器人操纵任务上进行了验证。

Jul, 2021

残差技能策略：学习适应性技能基础的动作空间，用于机器人增强学习

通过使用状态条件生成模型在技能空间中加速探索，同时提出低层次的剩余策略来适应未知的任务变化，从而在与先前工作的比较中显着加快了探索速度，并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。

Nov, 2022

无监督离策略强化学习实现真实世界机器人技能

本文提出的无监督技能发现算法可用于进行高效无监督增强学习，通过模型预测控制将学习到的技能组合用于目标导航。

Apr, 2020

可执行模型：无监督离线强化学习的机器人技能

本文提出了使用自回归进行离线机器人技能学习，并通过先前的数据学习环境的形式理解，该方法可以处理高维相机图像，可以学习到许多技能，并通过一系列技术进行训练，此方法具有较强的泛化能力，可以在多个目标之间进行目标链接，通过预训练或辅助目标学习到丰富的表示。

Apr, 2021