利用部分 STRIPS 模型扩展基于 ML 的黑盒规划技术
本文提出了一种新颖的方法,该方法从示例中学习 STRIPS 行动模型,并将其编译为一个经典的规划任务。编译方法对可用输入知识的不同量具有灵活性,并且可以接受部分指定的行动模型,并且可以用于验证计划执行的观察是否遵循给定的 STRIPS 行动模型,即使该模型不是完全指定。
Mar, 2019
本文研究如何使智能代理能够在真实环境中自主行动,提出一种通过学习状态转换函数从而得到明确的 STRIPS 规则的方法,能够应对真实环境中嘈杂的或不完全的观察数据。模拟实验表明该方法能够学习有用的环境模型描述。
Oct, 2012
通过学习来自 Scratch 的方法,我们提出了第一种能够学习无领域依赖规划启发式的方法。我们通过将规划问题的删除松弛表示的超图映射到通过超图从当前状态到目标的最小成本路径的成本估计来学习启发式。我们将图形网络推广到超图上学习,通过训练从最优成本计划中得到的状态 / 价值对来学习规划启发式。我们的实验表明,生成的 STRIPS-HGN 体系结构能够学习出与 LM-cut 等现有删除松弛启发式竞争的启发式,并且我们学习的启发式能够推广到不同的问题和领域。
Nov, 2019
我们提出了三种新颖的图表示方法,用于使用图神经网络(GNN)指导搜索,以学习与领域无关的启发式。我们还提供了对我们模型表达能力的理论分析,证明其中一些比 STRIPS-HGN(唯一的其他现有的学习领域无关启发式模型)更强大。我们的实验表明,我们的启发式算法可以广泛适用于训练集之外的更大问题,并远远超过 STRIPS-HGN 的启发式算法。
Dec, 2023
引入一种新的搜索框架来解决规划问题,该框架能够在解决特定规划问题时在几种前向搜索方法之间交替使用,使用可训练的随机策略来选择搜索方法,进而优化搜索策略,实验结果表明该框架优于传统的最佳优先搜索和均匀策略方法。
Oct, 2018
通过开发一种从基于模型的规划到策略的蒸馏方法,我们扩展了软负责人 - 评论者算法(SAC)的策略改进步骤,并证明了这种方法在改进过程中具有单调性和收敛性的理论保证。
Jul, 2023
本文提出新的算法 SAGE,结合符号性规划与神经网络学习等方法,以克服传统模型的局限,更高效地解决基于模型的强化学习在处理部分了解环境时遇到的问题。该算法在出租车环境和 Minecraft 等变化场景中的表现优于其他方法。
Mar, 2022
该论文介绍了如何使用 STIRPS 操作表示语言来实现多个执行器的代理计划生成,通过小的修改可以实现交互作用的并发操作,通过开发一个名为 POMP 的部分排序规划器,可以扩展现有的部分排序规划器来进行计划。
Jun, 2011
我们在删除自由计划和逻辑编程之间建立了新的关系,并采用逻辑程序的稳定模型来捕捉问题的所有行动子集,从而实现松弛计划问题的求解,同时,我们使用实验结果证明了这种方法能够提供更好的性能。
Jun, 2023