使用技能符号循环构建抽象层次结构

Sep, 2015

使用技能符号循环构建抽象层次结构

Constructing Abstraction Hierarchies Using a Skill-Symbol Loop

George Konidaris

TL;DR本文提出了一种通过交替运用技能获取和表示获取阶段，构建越来越抽象的马尔可夫决策过程序列的抽象层次结构框架，并描述了如何为出租车领域构建合适的层次结构以实现快速规划。

Abstract

We describe a framework for building abstraction hierarchies whereby an agent alternates skill- and representation-acquisition phases to construct a sequence of increasingly abstract markov decision processes. Ou

abstraction hierarchies markov decision processes skill acquisition representation acquisition fast planning

发现论文，激发创造

在强化学习中创建多级技能层次结构

基于图形结构的交互模式，提出了一种基于分层图划分的自主代理技能分层方法，该技能分层具有多层抽象和在强化学习中的实用性。

Jun, 2023

SkillDiffuser: 通过扩散式任务执行中的技能抽象实现可解释的分层规划

SkillDiffuser 是一个集成可解释技能学习与条件扩散规划的分层规划框架，用于从高级指令生成连贯和长程轨迹，在复杂任务中尤其对需要多个连续技能的情况具有挑战性。

Dec, 2023

学习用于规划的抽象且可迁移的表示

该论文提出了一个框架来自我学习代理环境的状态抽象，这些抽象是任务无关的可重用的，从而显著提高了学习效率和代理任务解决的能力。

May, 2022

层次概率模型的抽象 - 细化方法

本文介绍了一种通过层次化结构和抽象 - 细化循环来加速分析马尔科夫决策过程，针对重复部分具有局部影响的概率程序，将类似的子程序抽象成参数化模板，在需要时对其进行详细分析，从而缓解著名的状态空间爆炸问题。

Jun, 2022

通过技能多样性利用近似符号模型进行强化学习

本文介绍了近似符号模型引导的强化学习方法，该方法将字符的建模与底层措施相结合，以在不完整的符号模型信息下发现任务结构并有效地引导强化学习智能体向目标靠拢。

Feb, 2022

具有缩减计划的分层强化学习

本文提出了一种基于阿布达比符号规划的层次强化学习方法，该规划器可以处理用户定义的评估函数，并且不基于 Herbrand 定理。因此，它可以利用奖励的先前知识，并且可以在状态空间未知的领域中工作。我们在实验中证明了我们的体系架构在未知状态空间和多目标存在时，相对于评估领域的训练样例数量，可以显著提高学习效率。

Jun, 2018

通过可达性分析在层次化强化学习中的目标空间抽象

通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法，我们提出了一种基于发展机制的子目标发现方法，该方法能够逐渐学习这种表示法，并且通过导航任务的评估表明学习到的表示法是可解释的，并且可以实现数据效率。

Sep, 2023

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017

结合时空抽象以实现更好的泛化规划

Skipper 是一个受人类有意识规划启发的基于模型的强化学习代理，利用空间和时间抽象来在新情境中推广学到的技能，通过自动将任务分解为更小、更可管理的子任务来实现稀疏决策，并将计算集中在环境相关的部分。与现有的基于层次规划的方法相比，基于图的高层代理问题的定义和端到端学习的顶点和边的学习确保了性能保证，理论分析确定了我们的方法在何种情况下有帮助。通过以泛化为重点的实验验证，Skipper 在零样本泛化方面具有显著优势。

Sep, 2023

从状态空间结构学习规划的一阶符号表示

通过将规划器使用的一阶符号表示从编码状态空间结构的非符号输入中学习，我们解决了图像与符号之间的鸿沟，这意味着推断一个完整的一阶表示（即一般的动作模式、关系符号和对象）来解释所观察到的状态空间结构。

Sep, 2019