图神经网络诱导价值迭代

ICMLSep, 2020

Graph neural induction of value iteration

Andreea Deac, Pierre-Luc Bacon, Jian Tang

TL;DR通过引入图神经网络，该论文提出的价值迭代算法执行图神经网络，跨越任意环境模型，并在 VI 的中间步骤上受到直接监督，证明了具有强监督的 GNN 执行者是深度强化学习系统中可行的组成部分。

Abstract

Many reinforcement learning tasks can benefit from explicit planning based on an internal model of the environment. Previously, such planning components have been incorporated through a neural network that partia

reinforcement learning internal model planning component graph neural network value iteration

发现论文，激发创造

图形价值迭代

该论文提出了一种基于图值迭代的领域无关方法，通过利用局部搜索空间的图结构提供更多的信息学习信号，实现了解决规划任务的目标状态，以及通过一种课程策略来平滑学习过程。

Sep, 2022

广义价值迭代网络：超越格子世界

该论文介绍了一个称为 GVIN 的神经网络规划模块，利用图卷积算子模拟价值迭代算法，并提出了三种不同可微分的卷积核，其中基于嵌入的卷积核表现最佳，进而提出了改进型 Q 学习，用于网络训练的稳定化。实验结果表明，GVIN 在二维迷宫、不规则图形和真实街道网络的规划问题上表现出优秀的泛化性能。

Jun, 2017

高速公路图在强化学习中的加速

为了提高 RL 算法的训练效率，本研究基于高速公路图的观察，提出了一种新颖的图结构，用于模拟状态转换，将 RL 训练在早期阶段显著加速，并在性能上优于其他无模型和带模型的 RL 算法。同时，基于高速公路图训练的深度神经网络代理具有更好的泛化性能和更低的存储成本。

May, 2024

价值迭代网络

文章介绍了价值迭代网络（VIN），它是一个内嵌有 “规划模块” 的全可微神经网络，可以学习规划和预测基于规划的推理，如强化学习策略，其中的关键是一种新颖的可微近似值迭代算法，可表示为卷积神经网络，并使用标准反向传播进行端到端训练。我们在离散和连续路径规划域以及基于自然语言的搜索任务上评估 VIN 策略，并表明通过学习显式规划计算，VIN 策略可以更好地推广到新的、未见过的域。

Feb, 2016

基于图神经网络的谷歌研究足球智能体

本文提出了一种基于图神经网络（GNN）的深度 Q 学习网络（DQN），在 Google Research Football 框架下，将卷积神经网络难以提取足够信息的小地图输入转化成图形式，优化了估计值函数并提高了通信效率。实验证明，该模型在玩足球游戏中表现优秀，且训练速度快于其他 DRL 模型。

Apr, 2022

Value Memory Graph: 离线强化学习的基于图结构的世界模型

该研究旨在解决在复杂环境中直接应用强化学习方法以学习策略时遇到的困难，提出了一种基于图的马尔可夫决策过程的简单离线世界模型，称为 Value Memory Graph，可有效地解决回报稀疏和长时间跨度等问题。

Jun, 2022

深度可微规划器实现实际导航

本研究提出了一种基于不同可微可导规划器的机器人导航方法，用于规划并导航三维环境中的机器人，并考虑实际应用中的限制，该方法是在无需先验知识的情况下从安全的专家示范中训练产生，能够成功地应用于真实机器人的模拟导航。

Aug, 2021

隐式图神经网络

本文提出了一种名为 “Implicit Graph Neural Networks（IGNN）” 的图学习框架，其利用 Perron-Frobenius 理论来确保该框架的良好性，并利用隐式微分得到一种可行的投影梯度下降法来训练该框架，实验证明 IGNN 可以稳定捕捉长程依赖并优于现有的 GNN 模型。

Sep, 2020

使用 GNNs 学习通用策略而不需要监督

该研究利用图神经网络 (GNNs) 解决传统规划域的泛化策略学习问题。结果表明，这种方法可以获得最优性和广义性之间的平衡，从而实现泛化性能更好的规划。

May, 2022

连续神经算法规划器

该研究旨在展示神经算法推理如何在较高维度的连续控制任务中发挥作用，通过对 XLVIN 模型的扩展和改进，提供了一种处理连续行动空间的方法，并且在低数据设置中表现出色。

Nov, 2022