使用数据驱动指导学习任务无关技能
本文提出了一种名为 ' 探索、发现、学习 '(Explore, Discover and Learn, EDL)的方法,用于在没有面向任务的奖励功能的情况下获取技能,从而解决现有信息理论技能探索算法的覆盖问题,并在受控环境中进行全面的评估
Feb, 2020
本文研究了如何将技能融入强化学习智能体的训练,提出了基于技能的新方法 Hierarchical Kickstarting(HKS),并在复杂环境下的游戏 NetHack 及其他基线测试中验证了其表现优于其他方法,并认为利用预定义技能为具有大的状态 - 动作空间和稀疏奖励的强化学习问题提供了一个有用的归纳偏差。
Jul, 2022
提出了一种基于 Adversarial training 的方法,用于 Reinforcement learning 中任务发现的问题,可以实现在不需要任何先验环境知识的情况下,对多元化任务的高效自动学习,并且能够解决传统上存在的稀疏奖励问题。
May, 2017
本文提出了一种基于无人监督学习的算法,用于训练代理达成感知确定目标,通过学习目标条件化策略和目标实现奖励函数,代理人能够在没有手工奖励或专业数据的情况下掌握环境的控制方法。
Nov, 2018
用不需要外在奖励的无监督技能学习目标让智能体学会丰富的行为方式。通过同时训练一个生成策略和一个判别模型来实现,其中的困难在于探索新的状态时,判别模型没有足够的数据用于准确地分类技能,我们通过训练一个判别模型的集合并奖励生成策略来解决此问题。我们称之为 DISDAIN 探索奖励,它的表现证明在传统奖励方法中更加有效。
Jul, 2021
本文提出了一种名为任务不可知学习方法(TAL)的学习方法,该方法可从任务不可知数据中学习碎片化知识以完成新任务,TAL 由四个阶段组成:任务不可知探索,知识图表组织,动作特征提取,候选动作生成和动作建议。该方法在虚拟室内场景上的实验表明,它的性能优于当前的强化学习和模仿学习算法。
Sep, 2022
本文提出了一种基于示教引导的强化学习方法,该方法通过提取任务中共享的子任务结构,从而显著提高学习效率,并且在迷宫导航和复杂机器人操纵任务上进行了验证。
Jul, 2021
通过使用状态条件生成模型在技能空间中加速探索,同时提出低层次的剩余策略来适应未知的任务变化,从而在与先前工作的比较中显着加快了探索速度,并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。
Nov, 2022
本文提出了使用自回归进行离线机器人技能学习,并通过先前的数据学习环境的形式理解,该方法可以处理高维相机图像,可以学习到许多技能,并通过一系列技术进行训练,此方法具有较强的泛化能力,可以在多个目标之间进行目标链接,通过预训练或辅助目标学习到丰富的表示。
Apr, 2021