想象中的规划：基于学习生成的抽象搜索空间的高级规划

Aug, 2023

想象中的规划：基于学习生成的抽象搜索空间的高级规划

Planning in the imagination: High-level planning on learned abstract search spaces

Carlos Martin, Tuomas Sandholm

TL;DR我们提出了一种名为 PiZero 的新方法，使代理能够在完全与真实环境脱节的自主创建的抽象搜索空间中进行规划。与之前的方法不同，这使得代理能够在任意时间尺度上进行高层规划，并以复合或时间扩展的动作形式进行推理，这在需要执行大量基础微动作来执行相关宏动作的环境中非常有用。此外，我们的方法比可比较的之前方法更通用，因为它处理具有连续动作空间和部分可观察性的设置。我们在多个领域，包括导航任务和 Sokoban，对我们的方法进行了评估。实验结果表明，我们的方法在没有假设访问环境模拟器的情况下，优于可比较的之前方法。

Abstract

We propose a new method, called pizero, that gives an agent the ability to plan in an abstract search space of its own creation that is co

pizero agent abstract search space high-level planning temporally-extended actions

发现论文，激发创造

复杂动作空间中的学习与规划

本文提出了一个基于策略迭代的通用框架，可以在对一小部分行动的样本进行策略评估和改进的情况下对强化学习算法进行推理。其中，样本化 MuZero 是 MuZero 算法的一个扩展，可以在计划采样动作的情况下学习具有任意复杂行动空间的目标。作者用围棋和 DeepMind 的控制套件以及真实世界的强化学习测试开展了实证研究。

Apr, 2021

探索代理人环境，以优化其模型以获得更好的决策

为了提高人工智能的决策能力，文章提出了一种基于预测和规划的决策树算法 MuZero，通过该算法对决策树进行探索和改进，显著提高了代理人的决策能力。

Jun, 2023

学习抽象世界模型用于值保持规划和选项

通过学习抽象 MDP（Markov 决策过程）来提高智能体在多任务环境中的决策和学习效率。

Jun, 2024

通过学习模型规划，掌握雅达利、围棋、国际象棋和将棋

本文提出了 MuZero 算法，它通过结合基于树的搜索和学习模型实现了对一系列具有挑战性且视觉复杂的领域的超人类表现，在 57 款不同的 Atari 游戏上以及对 Go、国际象棋和象棋等游戏的测试中，都表现出了与 AlphaZero 算法相当的性能，而无需知道游戏规则。

Nov, 2019

结合时空抽象以实现更好的泛化规划

Skipper 是一个受人类有意识规划启发的基于模型的强化学习代理，利用空间和时间抽象来在新情境中推广学到的技能，通过自动将任务分解为更小、更可管理的子任务来实现稀疏决策，并将计算集中在环境相关的部分。与现有的基于层次规划的方法相比，基于图的高层代理问题的定义和端到端学习的顶点和边的学习确保了性能保证，理论分析确定了我们的方法在何种情况下有帮助。通过以泛化为重点的实验验证，Skipper 在零样本泛化方面具有显著优势。

Sep, 2023

BetaZero: 使用学习逼近的置信状态规划长时程 POMDPs

介绍一种基于准确置信模型的 BetaZero 算法，该算法使用在线蒙特卡罗树搜索与线下神经网络逼近相结合的方法来实现长周期问题的在线决策，解决了部分可观测领域的挑战，并在地质勘探等现实任务中表现出色。

May, 2023

使用深度学习为分层机器人规划引导抽象化

本研究介绍了一种使用深度神经网络自动生成机器人特定体系结构进行环境预测和自动计算抽象状态和动作的方法，得到的结果可用于提高机器人的规划性能和可靠性。研究结果表明，所学习的抽象状态和动作可以与一种新型的多源双向分层机器人规划算法配合使用，在测试环境中的计划时间上的表现比现有技术的基准方法提高了近 10 倍。

Feb, 2022

学习用于规划的抽象且可迁移的表示

该论文提出了一个框架来自我学习代理环境的状态抽象，这些抽象是任务无关的可重用的，从而显著提高了学习效率和代理任务解决的能力。

May, 2022

从零开始学习基于模型的规划

介绍了一种基于想象的规划器，可以学习构建、评估和执行计划，并可通过学习策略等手段进行多方案模拟，联合优化外部收益和计算成本等目标。

Jul, 2017

使用实时计算规划实现类鼠级战术回避性能

提出了一种基于动物生态学理论的新型高效生物灵感规划算法 TLPPO, 并将其与一个传统算法进行比较。在模拟模拟老鼠逃避机器人捕食者的实验中，TLPPO 算法表现出与生物老鼠类似的高效率。该研究对规划算法用户和开发人员，以及研究复杂行为基础的神经科学领域具有参考价值.

Nov, 2022