基于图形结构的交互模式,提出了一种基于分层图划分的自主代理技能分层方法,该技能分层具有多层抽象和在强化学习中的实用性。
Jun, 2023
SkillDiffuser 是一个集成可解释技能学习与条件扩散规划的分层规划框架,用于从高级指令生成连贯和长程轨迹,在复杂任务中尤其对需要多个连续技能的情况具有挑战性。
Dec, 2023
该论文提出了一个框架来自我学习代理环境的状态抽象,这些抽象是任务无关的可重用的,从而显著提高了学习效率和代理任务解决的能力。
May, 2022
本文介绍了一种通过层次化结构和抽象 - 细化循环来加速分析马尔科夫决策过程,针对重复部分具有局部影响的概率程序,将类似的子程序抽象成参数化模板,在需要时对其进行详细分析,从而缓解著名的状态空间爆炸问题。
Jun, 2022
本文介绍了近似符号模型引导的强化学习方法,该方法将字符的建模与底层措施相结合,以在不完整的符号模型信息下发现任务结构并有效地引导强化学习智能体向目标靠拢。
Feb, 2022
本文提出了一种基于阿布达比符号规划的层次强化学习方法,该规划器可以处理用户定义的评估函数,并且不基于 Herbrand 定理。因此,它可以利用奖励的先前知识,并且可以在状态空间未知的领域中工作。我们在实验中证明了我们的体系架构在未知状态空间和多目标存在时,相对于评估领域的训练样例数量,可以显著提高学习效率。
Jun, 2018
通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法,我们提出了一种基于发展机制的子目标发现方法,该方法能够逐渐学习这种表示法,并且通过导航任务的评估表明学习到的表示法是可解释的,并且可以实现数据效率。
Sep, 2023
本文提出了一种用于有效的多任务强化学习的新框架,该框架可以训练代理人使用分层策略,决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系,并在 Minecraft 游戏中进行了验证。
Dec, 2017
Skipper 是一个受人类有意识规划启发的基于模型的强化学习代理,利用空间和时间抽象来在新情境中推广学到的技能,通过自动将任务分解为更小、更可管理的子任务来实现稀疏决策,并将计算集中在环境相关的部分。与现有的基于层次规划的方法相比,基于图的高层代理问题的定义和端到端学习的顶点和边的学习确保了性能保证,理论分析确定了我们的方法在何种情况下有帮助。通过以泛化为重点的实验验证,Skipper 在零样本泛化方面具有显著优势。
通过将规划器使用的一阶符号表示从编码状态空间结构的非符号输入中学习,我们解决了图像与符号之间的鸿沟,这意味着推断一个完整的一阶表示(即一般的动作模式、关系符号和对象)来解释所观察到的状态空间结构。
Sep, 2019