使用 GNNs 学习通用策略而不需要监督

May, 2022

使用 GNNs 学习通用策略而不需要监督

Learning Generalized Policies Without Supervision Using GNNs

Simon Ståhlberg, Blai Bonet, Hector Geffner

TL;DR该研究利用图神经网络 (GNNs) 解决传统规划域的泛化策略学习问题。结果表明，这种方法可以获得最优性和广义性之间的平衡，从而实现泛化性能更好的规划。

Abstract

We consider the problem of learning generalized policies for classical planning domains using graph neural networks from small instances represented in lifted strips. The problem has been considered before but th

graph neural networks lifted strips first-order logic optimal policies generalization

发现论文，激发创造

无监督从少量样本学习通用政策

此研究提出了一种替代方法来计算更具表现力的通用策略，该方法不需要样本计划或 QNP 计划程序。该方法可以用机器学习中的标准术语来描述，通过定义来自规划示例中的谓词的大但有限的功能池，并寻找用于将 “好” 与 “坏” 状态转换和目标与非目标分开的一小部分功能。然后，这将作为单个组合优化问题一起解决，用加权最大满足问题来表示。

Jan, 2021

学习古典规划领域的通用策略：超越 C2

利用参数化的关系图神经网络 R-GNN [t]，我们在仅使用二次空间嵌入的情况下近似了 $3$-GNNs，对于较低的 t 值，如 $t=1$ 和 $t=2$，通过交换较少的信息消息，我们经常得到几个规划领域所需的 $C_3$ 特性。实验结果表明，相较于普通的 R-GNNs 和也近似了 $3$-GNNs 的边转换器，R-GNN [$1$] 和 R-GNN [$2$] 取得了明显的性能提升。

Mar, 2024

基于图策略网络的图可迁移主动学习

通过强化学习训练一种基于图神经网络 (GNN) 的策略网络，来学习如何高效地标注图中的节点，以减少 GNN 训练的标注成本。该研究还证明了所学习的策略网络在同一领域和不同领域的图之间进行迁移学习的有效性。

Jun, 2020

使用深度神经网络学习广义反应策略

本文提出了一种新的学习规划的方法，使用深度神经网络学习 “广义反应策略”（GRP），以映射问题实例和状态到动作，并用于自动学习启发式函数，通过对两个困难的规划问题领域的广泛实验，我们展示了使用我们的方法可以简化决策制定的复杂性和减少人类干预。

Aug, 2017

学习领域无关的触发条件与提升计划

我们提出了三种新颖的图表示方法，用于使用图神经网络（GNN）指导搜索，以学习与领域无关的启发式。我们还提供了对我们模型表达能力的理论分析，证明其中一些比 STRIPS-HGN（唯一的其他现有的学习领域无关启发式模型）更强大。我们的实验表明，我们的启发式算法可以广泛适用于训练集之外的更大问题，并远远超过 STRIPS-HGN 的启发式算法。

Dec, 2023

Policy-GNN：图神经网络的聚合优化

本文提出了 Policy-GNN 方法，通过 meta-policy 学习采样策略和消息传递，以解决 GNN 中的聚合优化问题，提高对图数据的建模精度。实验表明 Policy-GNN 显著优于现有的替代方法。

Jun, 2020

面向多领域和多任务对话的少样本结构化策略学习

本研究旨在探讨使用结构化政策提高在多领域和多任务环境下的强化学习样本效率。作者在测试不同结构化水平时，发现图形神经网络具有优势，且建议未来的研究应聚焦于连接人类数据、模拟器和自动评估器。

Feb, 2023

深度强化学习的广义计划

从小数据域中学习推导出可适用于远大于其所训练数据范围的领域的普遍性规则，本文研究了深度强化学习和图神经网络在学习这种广义策略的应用，并证明其具有普遍性。

May, 2020

图神经网络诱导价值迭代

通过引入图神经网络，该论文提出的价值迭代算法执行图神经网络，跨越任意环境模型，并在 VI 的中间步骤上受到直接监督，证明了具有强监督的 GNN 执行者是深度强化学习系统中可行的组成部分。

Sep, 2020

多领域任务导向对话的图神经网络策略及模仿学习

本研究使用基于图神经网络的结构化策略及不同程度的模仿学习，来有效地处理多领域对话，结果表明结构化策略优于标准策略。

Oct, 2022