多智能体路径规划中基于长短时记忆的空间编码

Mar, 2022

多智能体路径规划中基于长短时记忆的空间编码

Long Short-Term Memory for Spatial Encoding in Multi-Agent Path Planning

Marc R. Schlichting, Stefan Notter, Walter Fichter

TL;DR本文提出了一个基于强化学习的路径规划方法，可以应用到多经纬系统，通过训练一个连续状态和动作的策略网络，使其具有理想的路径规划行为，该方法通过 LSTM 模块来编码不特定数量的状态，可以扩展到具有无限数量代理和维度的情形，同时使用低成本的硬件平台进行实现。实验表明所提出的方法能成功地使 4 个自主导航的飞行器在现实世界环境中无碰撞地导航。

Abstract

reinforcement learning-based path planning for multi-agent systems of varying size constitutes a research topic with increasing significan

reinforcement learning path planning multi-agent systems policy network autonomous aerial vehicles

发现论文，激发创造

稀疏奖励下连续控制任务中的本地持久探索

本文提出了一种新的基于探索者轨迹的探索策略，使用局部自避步态生成方法，结合合适的状态平均距离，来为稀疏奖励的连续状态和行动空间提供短时记忆，实现高效的环境探索。

Dec, 2020

使用连续内存状态学习深度神经网络策略

通过内部记忆的方法，学习适用于高维连续系统（如机器人操纵器）的策略，通过把记忆状态加到系统的状态和动作空间中，使用有监督学习方法 Guided Policy Search 分解策略搜索问题，并通过轨迹优化和监督学习相结合的方式获得具有有效记忆和回忆策略的复杂策略

Jul, 2015

稀疏图形记忆用于鲁棒规划

该论文介绍了 Sparse Graphical Memory (SGM) 的新数据结构，与深度学习和经典规划相结合，以实现用于长时间范围下稀疏奖励视觉导航任务的可扩展性表现优于当前领先的方法。

Mar, 2020

短期预测实现长期规划

通过将规划问题分为两个阶段（预测和建模），使用递归神经网络，利用监督学习技术通过对输入节点进行优化来解决长期规划问题，从而在自动驾驶应用中学习鲁棒政策，并纳入敌对因素以优化环境。

Feb, 2016

基于模型的强化学习通过潜空间配置

该研究使用学习的潜在状态空间模型，结合目测模型强化学习方法，提出了一种优化潜在状态轨迹的 LatCo 方法，来解决长时程、奖励稀疏的任务。通过序列规划，相比于之前使用的射击方法，该方法在历经时间过程中的效果更好。

Jun, 2021

具有短期记忆的可证明强化学习

本文研究如何学习部分可观察的马尔科夫决策过程。通过构造一种特殊的子类 POMDP，它的隐状态可以通过历史的近期记录来解码。我们使用新颖的瞬时匹配方法，并建立了一组在表格和丰富观察设置下，学习这类问题的近优策略的样本复杂性的上下界，并证明了短期记忆对于这些环境的强化学习已经足够。

Feb, 2022

应用 MPC - 强化学习方法的无人机路径规划考虑避障

本文提出一种基于深度学习算法的无人机航迹规划方法，采用 LSTM-MPC 作为决策策略，并结合预测池来提高系统鲁棒性和效率，同时通过数值仿真实验验证了该方法的有效性。

Feb, 2023

大型部分可观察环境中的顺序计划引导 LLMs

通过结合状态空间搜索和基于自然语言模型的查询，我们提出了一种混合代理方法 neoplanner，以最大化状态值的上界来平衡探索和开发，并通过查询自然语言模型以生成行动计划，进一步提高了大规模状态空间和行动空间的顺序规划的性能。

Dec, 2023

评估 3D 迷宫中的长期记忆

本文介绍了 Memory Maze，这是一个专门设计用于评估智能体长期记忆的三维随机迷宫领域，包括在线的强化学习基准测试、离线数据集和离线探测评估。我们发现当前算法在小迷宫上的表现很好，但在大迷宫上还不及人类表现，未来有待进一步进行算法设计和评估。

Oct, 2022

隐空间中的基于模型的规划的时间预测编码

本文使用时间预测编码等方法，构建了一种信息论方法的强化学习模型，可帮助解决高维度观测值与复杂背景的问题。

Jun, 2021