稀疏图形记忆用于鲁棒规划

Mar, 2020

Sparse Graphical Memory for Robust Planning

Scott Emmons, Ajay Jain, Michael Laskin, Thanard Kurutach, Pieter Abbeel...

TL;DR该论文介绍了 Sparse Graphical Memory (SGM) 的新数据结构，与深度学习和经典规划相结合，以实现用于长时间范围下稀疏奖励视觉导航任务的可扩展性表现优于当前领先的方法。

Abstract

To operate effectively in the real world, agents should be able to act from high-dimensional raw sensory input such as images and achieve diverse goals across long time-horizons. Current deep reinforcement and imitation learning methods can learn directly from high-dimensional inputs b

agents deep learning classical planning sparse graphical memory visual navigation

发现论文，激发创造

多智能体路径规划中基于长短时记忆的空间编码

本文提出了一个基于强化学习的路径规划方法，可以应用到多经纬系统，通过训练一个连续状态和动作的策略网络，使其具有理想的路径规划行为，该方法通过 LSTM 模块来编码不特定数量的状态，可以扩展到具有无限数量代理和维度的情形，同时使用低成本的硬件平台进行实现。实验表明所提出的方法能成功地使 4 个自主导航的飞行器在现实世界环境中无碰撞地导航。

Mar, 2022

使用几何和符号场景图进行长时程操作的分层规划

我们提出了一种基于视觉的分层规划算法，利用神经符号任务规划和基于低级运动产生的联合框架，以指定目标为条件。该算法使用两级场景图形式来表示操作场景，即几何场景图和符号场景图，并使用图形神经网络来为高层任务规划和低层动作生成处理这些场景图。我们在物理模拟和现实世界中的厨房储物任务中验证了我们的方法，并证明我们的方法比标准的搜索任务和运动规划器运行速度高四个数量级。

Dec, 2020

Value Memory Graph: 离线强化学习的基于图结构的世界模型

该研究旨在解决在复杂环境中直接应用强化学习方法以学习策略时遇到的困难，提出了一种基于图的马尔可夫决策过程的简单离线世界模型，称为 Value Memory Graph，可有效地解决回报稀疏和长时间跨度等问题。

Jun, 2022

PlanGAN：基于模型的稀疏奖励和多目标规划

本研究提出了 PlanGAN，一种使用模型的算法，专门针对具有稀疏奖励环境的多目标任务进行求解，该算法比最成功的基于无模型 RL 算法的方法在提高 4-8 倍的样本效率下达到可比较的表现。

Jun, 2020

利用图神经网络处理稀疏奖励

本研究提出了基于图卷积网络的两种奖励形状方法的改进方案，一种涉及高级聚合函数，另一种则利用了注意机制，我们在三维环境中对我们的解决方案进行了经验验证，结论表明这些改进方案可以有效地提高稀疏奖励情况下的导航任务上深度强化学习算法的收敛性，并且所提出的使用注意力的方案具有可解释性。

Mar, 2022

稀疏奖励下连续控制任务中的本地持久探索

本文提出了一种新的基于探索者轨迹的探索策略，使用局部自避步态生成方法，结合合适的状态平均距离，来为稀疏奖励的连续状态和行动空间提供短时记忆，实现高效的环境探索。

Dec, 2020

SAGE: 深度强化学习中为近视模型生成符号化目标

本文提出新的算法 SAGE，结合符号性规划与神经网络学习等方法，以克服传统模型的局限，更高效地解决基于模型的强化学习在处理部分了解环境时遇到的问题。该算法在出租车环境和 Minecraft 等变化场景中的表现优于其他方法。

Mar, 2022

学习使用不确定拓扑地图进行规划

本文采用一种数据驱动的策略和基于图像的规划，应用于 3D 环境中的导航系统，通过机器学习方法实现了图像哈希表上的最短路径规划，比传统符号算法更优秀。

Jul, 2020

使用深度继承表示进行视觉语义规划

本文提出了一种基于强化学习和模仿学习的视觉语义计划解决方案，使用后继表示来实现跨任务的泛化，用于预测将动态环境从初始状态转换到目标状态的操作序列，在 THOR 环境中实现了近乎最优的结果。

May, 2017

子目标模型的目标空间规划

本文介绍了一种新的基于模型的强化学习方法来使用背景计划：将（近似）动态规划更新和无模型更新混合，类似于 Dyna 架构。我们通过将背景规划限制在一组（抽象）子目标上，并仅学习本地的、子目标条件模型的方法来避免高内存和计算使用率的不足，并证明了我们的 GSP 算法在各种情况下可以比 Double DQN 基线学习得更快。

Jun, 2022