SkillS: 自适应技能序列用于高效的时间扩展探索

Nov, 2022

SkillS: 自适应技能序列用于高效的时间扩展探索

SkillS: Adaptive Skill Sequencing for Efficient Temporally-Extended Exploration

Giulia Vezzani, Dhruva Tirumala, Markus Wulfmeier, Dushyant Rao, Abbas Abdolmaleki...

TL;DR我们提出了一种在多个领域中比现有方法更出色的技能转移方法，通过学习现有的时间扩展技能序列来进行探索，并直接从原始经验中学习最终策略，实现快速适应和高效数据收集。

Abstract

The ability to effectively reuse prior knowledge is a key requirement when building general and flexible reinforcement learning (RL) agents. skill reuse is one of the most common approaches, but current methods h

发现论文，激发创造

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在Minecraft游戏中进行了验证。

Dec, 2017

通过知情策略正则化在动态环境下学习自适应探索策略

本文研究了学习探索-利用策略来适应动态环境的问题，并提出了一种使用信息策略对RNN-based策略进行训练的新算法来规范化训练，从而显著减少了训练样本的复杂性。这种方法学习了一些探索策略，使其可以高效地平衡对于未知和变化的任务中获取信息以及随时间最大化回报的问题，并在多种环境中进行了测试。

May, 2020

学习技能先验加速强化学习

通过学习技能先验分布，将其用于最大熵强化学习，能够在导航和机器人操作任务中实现有效的技能传输。

Oct, 2020

COG: 利用离线强化学习将新技能连接到过去的经验

通过动态规划来利用之前的机器人行为数据拓展新的技能的研究，该方法可以允许机器人通过先前解决的任务或通过自主或无指导的环境交互来扩展和概括学习的行为，同时获得对自身环境的更广泛的理解和学习更好的策略。

Oct, 2020

基于重置游戏的控制基元继续学习技能发掘

提出一个能够在解决真实世界中很多挑战的同时，通过学习'重置技能'来帮助代理人更有效地学习技能的通用博弈形式方法，并实验表明该方法可以显著提高代理人的表现和加速后续学习。

Nov, 2020

ASPiRe:自适应技能先验在强化学习中的应用

ASPiRe通过特定数据集来学习不同的技能先验（即行为先验），并学习如何将它们相互组合来解决新任务，期望通过自适应的权重分配来指导政策学习以加速学习的下游任务。

Sep, 2022

残差技能策略：学习适应性技能基础的动作空间，用于机器人增强学习

通过使用状态条件生成模型在技能空间中加速探索，同时提出低层次的剩余策略来适应未知的任务变化，从而在与先前工作的比较中显着加快了探索速度，并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。

Nov, 2022

强化学习中的迁移基础：知识模式分类

当代人工智能系统的不断发展需要相应的资源、大量数据集和计算基础设施，特别是在限制环境下的基础研究和应用中，知识的表示通过各种模态呈现，包括动力学和奖励模型、价值函数、策略和原始数据。该论文系统地讨论了这些模态，并基于其固有属性和与不同目标和机制之间的相互关系来进行讨论，以实现知识的迁移和推广，并分析了特定形式的转移出现或稀缺的原因，并强调从设计到学习的转移的重要性。

Dec, 2023

技能何时帮助强化学习？对时间抽象的理论分析

技能在分层强化学习中通过临时抽象旨在提高强化学习性能。我们首次提供对确定性技能在确定性稀疏奖励环境和有限动作空间中的效用进行准确描述的研究，理论和实证结果表明，状态解决方案的压缩性较低的环境中强化学习的技能优势较小，技能对于探索比现有经验的学习更具益处，使用宏动作等表达能力有限的技能可能会降低强化学习性能。我们希望这些发现可以指导自动技能发现的研究，并帮助强化学习从业者在何时如何使用技能上做出更好的决策。

Jun, 2024

利用未标记的先前数据为高效在线探索提供技能

本研究解决了在强化学习中如何有效利用未标记的轨迹数据来提升探索策略的问题。通过提取低级技能并伪标记未标记的数据，我们提出了一种新方法SUPE，该方法结合了这些策略，能够在稀疏奖励的长时间任务中显著提高探索效率。研究结果表明，SUPE在多项任务上超越了以往策略，展现出其潜在的应用价值。

Oct, 2024