无监督从少量样本学习通用政策

AAAIJan, 2021

Learning General Policies from Small Examples Without Supervision

Guillem Francès, Blai Bonet, Hector Geffner

TL;DR此研究提出了一种替代方法来计算更具表现力的通用策略，该方法不需要样本计划或 QNP 计划程序。该方法可以用机器学习中的标准术语来描述，通过定义来自规划示例中的谓词的大但有限的功能池，并寻找用于将 “好” 与 “坏” 状态转换和目标与非目标分开的一小部分功能。然后，这将作为单个组合优化问题一起解决，用加权最大满足问题来表示。

Abstract

generalized planning is concerned with the computation of general policies that solve multiple instances of a planning domain all at once. It has been recently shown that these policies can be computed in two steps: first, a suitable abstraction in the form of a →

generalized planning qualitative numerical planning problem expressive general policies combinatorial optimization weighted max-sat problem

发现论文，激发创造

使用 GNNs 学习通用策略而不需要监督

该研究利用图神经网络 (GNNs) 解决传统规划域的泛化策略学习问题。结果表明，这种方法可以获得最优性和广义性之间的平衡，从而实现泛化性能更好的规划。

May, 2022

深度强化学习的广义计划

从小数据域中学习推导出可适用于远大于其所训练数据范围的领域的普遍性规则，本文研究了深度强化学习和图神经网络在学习这种广义策略的应用，并证明其具有普遍性。

May, 2020

学习特征和抽象行动以计算广义计划

本文介绍了一种结合自动学习和规划的方法来解决泛化计划问题，主要通过 Max SAT 表达式从已知实例的状态变迁中自动学习特征和抽象动作，并使用 fully observable 非确定性规划器生成泛化计划。实验结果展示了该方法的有效性。

Nov, 2018

广义规划中的特征、投影和表示变化

本文将广义规划的标准公式扩展到包括关系型规划域，通过使用抽象动作进行策略生成和基于 FOND 计划器的计算。

Jan, 2018

学习完全可观察的非确定性计划领域的广义策略

扩展学习通用策略的公式和组合方法以解决完全可观察、非确定性（FOND）领域的规划问题，通过实验证实所得方法在多个 FOND 规划基准领域上，并验证了其正确性。学习 FOND 规划的通用策略方法可以被视为在抽象空间中寻找解决方案的一种替代 FOND 规划方法，该抽象空间由需要学习的特征定义。

Apr, 2024

PG3: 通用策略生成的策略引导规划

本论文关注基于广义策略搜索的方法，提出了 Score function 的限制，并提出了能够克服这些限制的 Policy-Guided Planning for Generalized Policy Generation (PG3)，该论文在六种不同的领域进行实验，结果证明 PG3 比其他基线更有效地学习了泛化策略。

Apr, 2022

发现用于通用任务和动作规划的状态和动作抽象

本文提出一种算法，用于通过学习特征、抽象和广义计划来解决连续机器人任务和运动规划中的困难问题。研究表明，仅使用少量示例学习的简单广义计划可以用于优化 TAMP 求解器的搜索效率。

Sep, 2021

具有正负例的泛化规划

本文将负例规划定义为一组不应由泛化计划解决的计划实例，并将计划验证的概念扩展到验证给定泛化计划解决输入正例实例时是否无法解决给定的一组负例实例，以量化评估泛化计划的能力，并展示如何将负例规划应用于计划综合的编译中，实验结果表明添加负例可以加速计划综合的过程，并提高合成计划泛化能力的定量度量方式。

Nov, 2019

学习关系随机最短路径问题的广义策略自动机

本文提出了一种利用关系型特征抽象学习广义策略自动机（Generalized Policy Automata，GPA）来解决随机最短路径（Stochastic Shortest Path Problems，SSPs）问题的方法，该方法通过少量数据训练便能学到适用于各种相关问题的泛化的非确定性部分策略（partial policy），并在针对数量超过训练数据的问题上显著优于现有的 SSP 求解器。

Apr, 2022

推广规划的可靠抽象保证 (扩展论文)

本研究针对广义规划中的归纳学习过程中模型广化限制的问题，提出基于全量数据的抽象模型和自动化合成方法，并形式化证明了其可行性和正确性。

May, 2019