将价值迭代网络扩展到 5000 层，用于极长期规划

Jun, 2024

将价值迭代网络扩展到 5000 层，用于极长期规划

Scaling Value Iteration Networks to 5000 Layers for Extreme Long-Term Planning

Yuhui Wang, Qingyuan Wu, Weida Li, Dylan R. Ashley, Francesco Faccio...

TL;DRDT-VIN 通过增加动态转移内核和引入自适应高速公路损失来提高价值迭代网络在强化学习中规划的表达能力和解决长期大规模规划任务的能力。

Abstract

The value iteration network (VIN) is an end-to-end differentiable architecture that performs value iteration on a latent mdp for planning

value iteration network latent mdp planning reinforcement learning dynamic transition vin

发现论文，激发创造

高速价值迭代网络

使用可微分规划模块和嵌入式高速值迭代的方法，有效地解决了长期规划问题并在数百个规划步骤中超越了传统的值迭代网络和一些很深的神经网络。

Jun, 2024

XLVIN：执行的潜在价值迭代网络

我们提出了一种叫做 XLVINs 的新方法，它通过结合对比自监督学习、图表示学习和神经算法推理等新方法，成功地在一般环境中部署了 VIN 风格的模型，克服了目前主要存在的局限性，同时匹配了在固定和已知的离散 MDP 情况下的 VIN 模型的性能，并在三个一般的 MDP 设置上提供了显著的模型无关基线改进。

Oct, 2020

价值迭代网络

文章介绍了价值迭代网络（VIN），它是一个内嵌有 “规划模块” 的全可微神经网络，可以学习规划和预测基于规划的推理，如强化学习策略，其中的关键是一种新颖的可微近似值迭代算法，可表示为卷积神经网络，并使用标准反向传播进行端到端训练。我们在离散和连续路径规划域以及基于自然语言的搜索任务上评估 VIN 策略，并表明通过学习显式规划计算，VIN 策略可以更好地推广到新的、未见过的域。

Feb, 2016

门控路径规划网络

将值迭代网络（VIN）重新构建为递归卷积网络，提出了门控路径规划网络（Gated Path Planning Network）并提出标准门控循环更新方程可以缓解优化问题，取得了比 VIN 更好的性能，可用于多种场景下的导航规划。

Jun, 2018

深度可微规划器实现实际导航

本研究提出了一种基于不同可微可导规划器的机器人导航方法，用于规划并导航三维环境中的机器人，并考虑实际应用中的限制，该方法是在无需先验知识的情况下从安全的专家示范中训练产生，能够成功地应用于真实机器人的模拟导航。

Aug, 2021

广义价值迭代网络：超越格子世界

该论文介绍了一个称为 GVIN 的神经网络规划模块，利用图卷积算子模拟价值迭代算法，并提出了三种不同可微分的卷积核，其中基于嵌入的卷积核表现最佳，进而提出了改进型 Q 学习，用于网络训练的稳定化。实验结果表明，GVIN 在二维迷宫、不规则图形和真实街道网络的规划问题上表现出优秀的泛化性能。

Jun, 2017

带门控摘要模块的价值迭代网络

本文提出了一种名为 GS-VIN 的价值迭代网络，该网络采用自适应迭代策略来降低迭代次数，并引入了门控汇总模块来总结整个迭代过程，研究表明在 2D 网格世界路径规划问题和 Atari Mr. Pac-man 环境中，GS-VIN 在单步准确性、规划成功率和不同地图大小的整体性能方面优于基线。

May, 2023

利用隐式微分扩展和稳定可微规划

本文提出了一种不依赖于 forward iteration 层区分前向计算和反向传递并解决 Value Iteration Network 和其变体中大规模问题的不同 iable planning 方法，该方法通过 Bellman fixed-point 方程进行不同 iation，使得计划范围内反向传递的成本恒定，并且前向预算灵活，最终证明了该方法在多个规划任务中的优越性。

Oct, 2022

基于价值迭代网络的非完整智能体的协同运动规划

本研究将 Value Iteration Networks 扩展为解决协作规划任务，通过多个 VINs 相互连接并通过迭代梯度下降生成协作策略，验证结果表明，所得网络能够解决需要协作的非完整性运动规划问题。

Sep, 2017

高速公路图在强化学习中的加速

为了提高 RL 算法的训练效率，本研究基于高速公路图的观察，提出了一种新颖的图结构，用于模拟状态转换，将 RL 训练在早期阶段显著加速，并在性能上优于其他无模型和带模型的 RL 算法。同时，基于高速公路图训练的深度神经网络代理具有更好的泛化性能和更低的存储成本。

May, 2024