学习广义关系启发式网络进行模型无关规划
本文提出了一种基于机器学习的启发式计划搜索控制方法,通过学习搜索启发式计划的控制策略,实现了减少计算节点评估的目的,并通过两种方法(使用分类器作为行动策略和将分类器应用于生成前瞻状态)有效提高搜索效率,解决了现有启发式计划算法在可伸缩性方面的不足。
Jan, 2014
通过学习来自 Scratch 的方法,我们提出了第一种能够学习无领域依赖规划启发式的方法。我们通过将规划问题的删除松弛表示的超图映射到通过超图从当前状态到目标的最小成本路径的成本估计来学习启发式。我们将图形网络推广到超图上学习,通过训练从最优成本计划中得到的状态 / 价值对来学习规划启发式。我们的实验表明,生成的 STRIPS-HGN 体系结构能够学习出与 LM-cut 等现有删除松弛启发式竞争的启发式,并且我们学习的启发式能够推广到不同的问题和领域。
Nov, 2019
我们提出了三种新颖的图表示方法,用于使用图神经网络(GNN)指导搜索,以学习与领域无关的启发式。我们还提供了对我们模型表达能力的理论分析,证明其中一些比 STRIPS-HGN(唯一的其他现有的学习领域无关启发式模型)更强大。我们的实验表明,我们的启发式算法可以广泛适用于训练集之外的更大问题,并远远超过 STRIPS-HGN 的启发式算法。
Dec, 2023
建议并评估了一种系统,该系统学习了一种用于基于正向搜索的满足经典规划的神经网络启发式函数。我们的系统从头开始学习目标估计器,并生成训练数据。通过反向回归搜索或通过反向搜索从给定或猜测的目标状态生成培训数据。
Jun, 2023
本研究介绍了一种使用深度神经网络自动生成机器人特定体系结构进行环境预测和自动计算抽象状态和动作的方法,得到的结果可用于提高机器人的规划性能和可靠性。研究结果表明,所学习的抽象状态和动作可以与一种新型的多源双向分层机器人规划算法配合使用,在测试环境中的计划时间上的表现比现有技术的基准方法提高了近 10 倍。
Feb, 2022
本文提出了一种新的学习规划的方法,使用深度神经网络学习 “广义反应策略”(GRP),以映射问题实例和状态到动作,并用于自动学习启发式函数,通过对两个困难的规划问题领域的广泛实验,我们展示了使用我们的方法可以简化决策制定的复杂性和减少人类干预。
Aug, 2017
本文提出了一种基于阿布达比符号规划的层次强化学习方法,该规划器可以处理用户定义的评估函数,并且不基于 Herbrand 定理。因此,它可以利用奖励的先前知识,并且可以在状态空间未知的领域中工作。我们在实验中证明了我们的体系架构在未知状态空间和多目标存在时,相对于评估领域的训练样例数量,可以显著提高学习效率。
Jun, 2018
本研究旨在使机器人能够学习如何按照自然语言指示序列化其动作以执行任务,通过人类伙伴的成功演示。为了达到这个目的,我们引入了一种新颖的神经符号模型 GoalNet,它能够从人类演示和语言任务描述中推断目标谓词的上下文和任务依赖关系,并结合学习和规划以提高在多阶段任务中的决策能力。通过在一个表示语言变化的基准数据集上进行测试,我们证明了 GoalNet 在任务完成率上比现有基于规则的方法有了显著改进(51%)。
May, 2022