学习广义关系启发式网络进行模型无关规划

AAAIJul, 2020

学习广义关系启发式网络进行模型无关规划

Learning Generalized Relational Heuristic Networks for Model-Agnostic Planning

Rushang Karia, Siddharth Srivastava

TL;DR利用深度神经网络学习适用于不同对象及数量的通用启发式方法，以解决当前计算复杂性问题所依赖的手工编码符号动作模型和启发式函数生成器效率不高的问题。实证评估表明，由此方法计算的通用启发函数可轻松应用于不同对象、数量显著大于训练数据的问题。

Abstract

Computing goal-directed behavior is essential to designing efficient AI systems. Due to the computational complexity of planning, current approaches rely primarily upon hand-coded symbolic action models and hand-coded heuristic-function generators for efficiency. →

ai systems planning learned heuristics deep neural networks generalizable learning

发现论文，激发创造

朝向学习领域独立规划启发式方法

利用机器学习获取领域无关的启发式函数以提高自动规划在不同领域系统中的实际应用。

Jul, 2017

使用关系决策树扩展启发式规划

本文提出了一种基于机器学习的启发式计划搜索控制方法，通过学习搜索启发式计划的控制策略，实现了减少计算节点评估的目的，并通过两种方法（使用分类器作为行动策略和将分类器应用于生成前瞻状态）有效提高搜索效率，解决了现有启发式计划算法在可伸缩性方面的不足。

Jan, 2014

使用超图网络学习领域无关计划启发式

通过学习来自 Scratch 的方法，我们提出了第一种能够学习无领域依赖规划启发式的方法。我们通过将规划问题的删除松弛表示的超图映射到通过超图从当前状态到目标的最小成本路径的成本估计来学习启发式。我们将图形网络推广到超图上学习，通过训练从最优成本计划中得到的状态 / 价值对来学习规划启发式。我们的实验表明，生成的 STRIPS-HGN 体系结构能够学习出与 LM-cut 等现有删除松弛启发式竞争的启发式，并且我们学习的启发式能够推广到不同的问题和领域。

Nov, 2019

学习领域无关的触发条件与提升计划

我们提出了三种新颖的图表示方法，用于使用图神经网络（GNN）指导搜索，以学习与领域无关的启发式。我们还提供了对我们模型表达能力的理论分析，证明其中一些比 STRIPS-HGN（唯一的其他现有的学习领域无关启发式模型）更强大。我们的实验表明，我们的启发式算法可以广泛适用于训练集之外的更大问题，并远远超过 STRIPS-HGN 的启发式算法。

Dec, 2023

使用神经网络学习特定搜索空间启发式算法

建议并评估了一种系统，该系统学习了一种用于基于正向搜索的满足经典规划的神经网络启发式函数。我们的系统从头开始学习目标估计器，并生成训练数据。通过反向回归搜索或通过反向搜索从给定或猜测的目标状态生成培训数据。

Jun, 2023

使用深度学习为分层机器人规划引导抽象化

本研究介绍了一种使用深度神经网络自动生成机器人特定体系结构进行环境预测和自动计算抽象状态和动作的方法，得到的结果可用于提高机器人的规划性能和可靠性。研究结果表明，所学习的抽象状态和动作可以与一种新型的多源双向分层机器人规划算法配合使用，在测试环境中的计划时间上的表现比现有技术的基准方法提高了近 10 倍。

Feb, 2022

使用深度神经网络学习广义反应策略

本文提出了一种新的学习规划的方法，使用深度神经网络学习 “广义反应策略”（GRP），以映射问题实例和状态到动作，并用于自动学习启发式函数，通过对两个困难的规划问题领域的广泛实验，我们展示了使用我们的方法可以简化决策制定的复杂性和减少人类干预。

Aug, 2017

基于图神经网络的符号关系深度强化学习

通过图神经网络和自回归策略分解，构建了一个深度强化学习框架，在多样化场景下表现出了出色的竞争能力和卓越的零 - shot 泛化能力.

Sep, 2020

具有缩减计划的分层强化学习

本文提出了一种基于阿布达比符号规划的层次强化学习方法，该规划器可以处理用户定义的评估函数，并且不基于 Herbrand 定理。因此，它可以利用奖励的先前知识，并且可以在状态空间未知的领域中工作。我们在实验中证明了我们的体系架构在未知状态空间和多目标存在时，相对于评估领域的训练样例数量，可以显著提高学习效率。

Jun, 2018

GoalNet: 从人类计划演示中推断出合取目标谓词，以用于机器人指令跟随

本研究旨在使机器人能够学习如何按照自然语言指示序列化其动作以执行任务，通过人类伙伴的成功演示。为了达到这个目的，我们引入了一种新颖的神经符号模型 GoalNet，它能够从人类演示和语言任务描述中推断目标谓词的上下文和任务依赖关系，并结合学习和规划以提高在多阶段任务中的决策能力。通过在一个表示语言变化的基准数据集上进行测试，我们证明了 GoalNet 在任务完成率上比现有基于规则的方法有了显著改进（51％）。

May, 2022