结合时空抽象以实现更好的泛化规划

Sep, 2023

结合时空抽象以实现更好的泛化规划

Combining Spatial and Temporal Abstraction in Planning for Better Generalization

Mingde Zhao, Safa Alver, Harm van Seijen, Romain Laroche, Doina Precup...

TL;DRSkipper 是一个受人类有意识规划启发的基于模型的强化学习代理，利用空间和时间抽象来在新情境中推广学到的技能，通过自动将任务分解为更小、更可管理的子任务来实现稀疏决策，并将计算集中在环境相关的部分。与现有的基于层次规划的方法相比，基于图的高层代理问题的定义和端到端学习的顶点和边的学习确保了性能保证，理论分析确定了我们的方法在何种情况下有帮助。通过以泛化为重点的实验验证，Skipper 在零样本泛化方面具有显著优势。

Abstract

Inspired by human conscious planning, we propose Skipper, a model-based reinforcement learning agent that utilizes spatial and temporal abstractions to generalize learned skills in novel situations. It automatica

reinforcement learning spatial and temporal abstractions task decomposition hierarchical planning zero-shot generalization

发现论文，激发创造

协调空间和时间抽象以实现目标表征

通过引入空间和时间目标抽象的三层层次强化学习（HRL）算法提高目标表示性能，评估了该算法在复杂连续控制任务上学习到的空间和时间抽象的有效性以及遗憾边界的理论研究。

Jan, 2024

草图 - 计划 - 泛化：语言引导机器人操作中归纳通用化空间概念的持续少样本学习

构建具有物理表征特性的神经符号方法，以逐渐学习概括性空间概念，用于创造塔的高度等任务，并在连续学习中实现在新概念上的归纳推理能力超越现有基准线。

Apr, 2024

发现用于通用任务和动作规划的状态和动作抽象

本文提出一种算法，用于通过学习特征、抽象和广义计划来解决连续机器人任务和运动规划中的困难问题。研究表明，仅使用少量示例学习的简单广义计划可以用于优化 TAMP 求解器的搜索效率。

Sep, 2021

学习抽象世界模型用于值保持规划和选项

通过学习抽象 MDP（Markov 决策过程）来提高智能体在多任务环境中的决策和学习效率。

Jun, 2024

探索和转移的潜在技能规划

该研究探讨了将学习到的世界模型和技能集成到单个强化学习代理中以快速适应新任务的方法，并在一系列具有挑战性的运动任务中展示了在单个任务和从一个任务到另一个任务的转移中改善了样本效率。

Nov, 2020

预测者：从像素到时间抽象的树搜索规划

Forecaster 是一种深度分层强化学习方法，通过对抽象层次的状态转换动态建模和训练世界模型，在高维状态空间（如像素）等复杂环境中规划高层次目标，并通过树搜索规划程序选择最优高层次目标，从而捕捉建立具有较长时间跨度的世界模型和在下游任务中规划使用这些模型的潜力。在 AntMaze 领域中的单任务学习和新任务泛化方面，我们通过实验证明了 Forecaster 的潜力。

Oct, 2023

使用时间跳连的自监督视觉规划

该研究旨在通过直接进行视频预测来实现自监督机器人学习，通过引入具有时间跳转连接的视频预测模型和新颖的规划准则和行动空间公式，研究表明该模型在机器人操作中具有很好的性能。

Oct, 2017

想象中的规划：基于学习生成的抽象搜索空间的高级规划

我们提出了一种名为 PiZero 的新方法，使代理能够在完全与真实环境脱节的自主创建的抽象搜索空间中进行规划。与之前的方法不同，这使得代理能够在任意时间尺度上进行高层规划，并以复合或时间扩展的动作形式进行推理，这在需要执行大量基础微动作来执行相关宏动作的环境中非常有用。此外，我们的方法比可比较的之前方法更通用，因为它处理具有连续动作空间和部分可观察性的设置。我们在多个领域，包括导航任务和 Sokoban，对我们的方法进行了评估。实验结果表明，我们的方法在没有假设访问环境模拟器的情况下，优于可比较的之前方法。

Aug, 2023

变分时间抽象

本文介绍了一种用于序列数据学习和推理的变分方法，即基于变分时间抽象（VTA）的分层循环状态空间模型，该模型能够推断潜在的时间结构并因此进行随机状态转换分层；同时本文还提出了将该模型应用于增强想象学习中的跳跃想象能力实现，并且实验验证表明本文提出的方法能够对 2D 和 3D 视觉序列数据集进行可解释性时间结构发现并且应用于多样化的想象能力可以有效提高 3D 导航任务中的智能体学习效率。

Oct, 2019

具有空间记忆的生成时序模型用于部分可观测环境

本文提出了一种新型的基于模型的强化学习方法，利用生成模型和时序模型进行环境建模以达到优化智能体表现的目的，该模型可用于部分观察到的 2D 和 3D 环境中进行跨时间点的预测。

Apr, 2018