记忆增强控制网络

Sep, 2017

Memory Augmented Control Networks

Arbaaz Khan, Clark Zhang, Nikolay Atanasov, Konstantinos Karydis, Vijay Kumar...

TL;DR该文章介绍了一种名为Memory Augmented Control Network (MACN)的神经网络，通过卷积特征提取、基于神经网络的规划和网络控制器学习，解决了计划问题和部分可观测环境下的推理问题，该网络在离散的网格世界环境中表现出了强大的求解和泛化能力。

Abstract

Planning problems in partially observable environments cannot be solved directly with convolutional networks and require some form of memory. But, even memory networks with sophisticated addressing schemes are un

发现论文，激发创造

基于记忆的循环神经网络控制

本研究利用RNN与反向传播算法，扩展了两个连续控制的无模型算法，能够成功地解决大量的物理控制问题，包括部分受到噪声干扰而需要信息短暂整合的问题，以及需要在多个时间步骤中保留信息的长期记忆问题，并且使用简化版本的Morris水迷宫任务进行了探索与记忆结合问题的研究。同时，通过直接从像素中学习，能够处理高维度的观测问题。

Dec, 2015

从像素学习潜在动力学规划

通过图像学习环境动态、通过快速在线规划选择动作，利用深度计划网络（PlaNet）解决了连续控制任务中的挑战，同时使用的强度模型相对较少。

Nov, 2018

动作规划网络：弥合基于学习和经典动作规划器之间的差距

本文介绍了Motion Planning Networks (MPNet)，这是一种计算效率高、基于学习的神经规划器，用于解决运动规划问题。 MPNet使用神经网络学习通用的近似最优启发式路径规划，在已知和未知环境中生成可连接路径，并结合传统的采样规划器，形成了一种混合方法。为了培训MPNet模型，我们提出了一种主动的连续学习方法，使MPNet能够从流媒体数据中学习，并在需要时主动要求专家演示，大大减少了培训数据。在各种2D到7D机器人配置空间的问题中，我们进行了性能评估，并验证了MPNet的鲁棒性。

Jul, 2019

ASNets: 通用计划的深度学习

本文介绍使用Action Schema Networks（ASNets）学习概率和经典计划问题的广义策略，ASNets是一种神经网络架构，它利用（P）PDDL计划问题的关系结构来学习一组通用权重，可以应用于该领域内的任何问题，我们扩展了ASNets架构以使其更具表现力，同时仍保持不变，还提出了瞬时诱导正则化方法，产生足够紧凑的ASNets，以便人们可以理解，实验结果表明ASNets可以产生通用反应策略，可以更快地解决大型问题实例。

Aug, 2019

MANTRA：用存储增强网络进行多轨迹预测

本论文提出了一种基于记忆增强神经网络的多模态轨迹预测方法，该方法可以在复杂场景中安全地规划自主车辆路径，并且通过非参数化的记忆模块，可以不断改进预测效果。

Jun, 2020

深度视觉推理：从初始场景图像学习预测任务和运动规划的动作序列

本文提出了一种基于场景图像的深度卷积循环神经网络，可用于从一个初始化的场景图像中预测任务与运动规划中的动作序列。该网络可避免组合复杂性并具有很好的泛化性能，可加速任务与运动规划的运行时间。

Jun, 2020

神经A *搜索的路径规划

本文提出了一种新颖的神经元A*算法，它是一种基于数据的搜索路径规划方法，通过将搜索算法经过改进后与卷积编码器相耦合，可以形成一个端到端训练的神经网络规划器。通过提供专家提供正确路径，通过学习与地面实况路径匹配，神经元A*可以精确高效地产生与实际路径一致的路径。实验证明，与最先进的基于数据驱动的规划器相比，神经元A*在搜索效率与最优性之间的权衡方面表现更好。此外，神经元A*成功地在自然图像输入上执行了基于搜索的人类运动预测。

Sep, 2020

基于记忆增强的强化学习在图像目标导航中的应用

该研究提出了一种基于记忆增强的注意力机制模型，利用序列记忆学习图像目标导航，模型表现优异，创造了新的最优结果。与相关工作不同的是，仅使用RGB图像输入，无需姿态/深度传感器等额外信息。

Jan, 2021

多智能体路径规划中基于长短时记忆的空间编码

本文提出了一个基于强化学习的路径规划方法，可以应用到多经纬系统，通过训练一个连续状态和动作的策略网络，使其具有理想的路径规划行为，该方法通过 LSTM 模块来编码不特定数量的状态，可以扩展到具有无限数量代理和维度的情形，同时使用低成本的硬件平台进行实现。实验表明所提出的方法能成功地使4个自主导航的飞行器在现实世界环境中无碰撞地导航。

Mar, 2022

使用GNN和时间编码进行基于学习的动态环境运动规划

本文介绍了一种基于GNN的方法，利用时间编码和模仿学习与数据聚合来学习嵌入和边缘优先策略，以显着加速在线规划。

Oct, 2022