利用部分 STRIPS 模型扩展基于 ML 的黑盒规划技术

IJCAIJul, 2022

利用部分 STRIPS 模型扩展基于 ML 的黑盒规划技术

Scaling up ML-based Black-box Planning with Partial STRIPS Models

Matias Greco, Álvaro Torralba, Jorge A. Baier, Hector Palacios

TL;DR本文探讨了当无完整符号化模型可用时，如何使用 STRIPS 模型来改进基于机器学习的黑盒计划。我们的研究表明，这是一种提高黑盒计划效率的有效方式，超越了收集更多数据或调整机器学习架构。

Abstract

A popular approach for sequential decision-making is to perform simulator-based search guided with machine learning (ML) methods like policy learning. On the other hand, model-relaxation →

sequential decision-making machine learning policy learning heuristics planning domains

发现论文，激发创造

STRIPS 行动发现

本文提出一种新算法来无监督地合成 STRIPS 动作模型，并通过多种实验表明所学习的动作模型可以泛化到未见过的规划实例。

Jan, 2020

使用古典规划学习 STRIPS 动作模型

本文提出了一种新颖的方法，该方法从示例中学习 STRIPS 行动模型，并将其编译为一个经典的规划任务。编译方法对可用输入知识的不同量具有灵活性，并且可以接受部分指定的行动模型，并且可以用于验证计划执行的观察是否遵循给定的 STRIPS 行动模型，即使该模型不是完全指定。

Mar, 2019

从嘈杂不完整的观测中学习 STRIPS 运算符

本文研究如何使智能代理能够在真实环境中自主行动，提出一种通过学习状态转换函数从而得到明确的 STRIPS 规则的方法，能够应对真实环境中嘈杂的或不完全的观察数据。模拟实验表明该方法能够学习有用的环境模型描述。

Oct, 2012

使用超图网络学习领域无关计划启发式

通过学习来自 Scratch 的方法，我们提出了第一种能够学习无领域依赖规划启发式的方法。我们通过将规划问题的删除松弛表示的超图映射到通过超图从当前状态到目标的最小成本路径的成本估计来学习启发式。我们将图形网络推广到超图上学习，通过训练从最优成本计划中得到的状态 / 价值对来学习规划启发式。我们的实验表明，生成的 STRIPS-HGN 体系结构能够学习出与 LM-cut 等现有删除松弛启发式竞争的启发式，并且我们学习的启发式能够推广到不同的问题和领域。

Nov, 2019

学习领域无关的触发条件与提升计划

我们提出了三种新颖的图表示方法，用于使用图神经网络（GNN）指导搜索，以学习与领域无关的启发式。我们还提供了对我们模型表达能力的理论分析，证明其中一些比 STRIPS-HGN（唯一的其他现有的学习领域无关启发式模型）更强大。我们的实验表明，我们的启发式算法可以广泛适用于训练集之外的更大问题，并远远超过 STRIPS-HGN 的启发式算法。

Dec, 2023

用策略梯度学习经典规划策略

引入一种新的搜索框架来解决规划问题，该框架能够在解决特定规划问题时在几种前向搜索方法之间交替使用，使用可训练的随机策略来选择搜索方法，进而优化搜索策略，实验结果表明该框架优于传统的最佳优先搜索和均匀策略方法。

Oct, 2018

基于模型的规划提炼出有理论保证的策略改进

通过开发一种从基于模型的规划到策略的蒸馏方法，我们扩展了软负责人 - 评论者算法（SAC）的策略改进步骤，并证明了这种方法在改进过程中具有单调性和收敛性的理论保证。

Jul, 2023

SAGE: 深度强化学习中为近视模型生成符号化目标

本文提出新的算法 SAGE，结合符号性规划与神经网络学习等方法，以克服传统模型的局限，更高效地解决基于模型的强化学习在处理部分了解环境时遇到的问题。该算法在出租车环境和 Minecraft 等变化场景中的表现优于其他方法。

Mar, 2022

具有并发相互作用动作的部分序规划

该论文介绍了如何使用 STIRPS 操作表示语言来实现多个执行器的代理计划生成，通过小的修改可以实现交互作用的并发操作，通过开发一个名为 POMP 的部分排序规划器，可以扩展现有的部分排序规划器来进行计划。

Jun, 2011

通过具有稳定和支持模型的逻辑程序捕获（最优）松散计划

我们在删除自由计划和逻辑编程之间建立了新的关系，并采用逻辑程序的稳定模型来捕捉问题的所有行动子集，从而实现松弛计划问题的求解，同时，我们使用实验结果证明了这种方法能够提供更好的性能。

Jun, 2023