PALMER：感知 - 动作循环，带有长视距规划记忆

Dec, 2022

PALMER：感知 - 动作循环，带有长视距规划记忆

PALMER: Perception-Action Loop with Memory for Long-Horizon Planning

Onur Beker, Mohammad Mohammadi, Amir Zamir

TL;DR为了实现先验未知的真实世界场景下的自治，我们介绍了一种称为 PALMER 的通用规划算法，将经典基于采样的规划算法与基于学习的感知表示相结合，从而获得更健壮、更高效的长视距规划。

Abstract

To achieve autonomy in a priori unknown real-world scenarios, agents should be able to: i) act from high-dimensional sensory observations (e.g., images), ii) learn from past experience to adapt and improve, and iii) be capable of long horizon planning. Classical planning algorithms (e.g. PRM, RRT) are proficient at handling →

autonomous agents perceptual representations sampling-based planning reinforcement learning long-horizon planning

发现论文，激发创造

利用预测状态表示关闭学习和规划循环

本文提出并演示了一种精确学习环境模型的新算法，该算法从行动 - 观测对的序列中直接学习此类环境的模型，并通过在学习的模型中进行规划并恢复一个接近原始环境的最优策略实现从观测到行动的闭环。

Dec, 2009

回放缓存搜索：连接计划和强化学习

我们介绍了一种结合规划算法和强化学习的通用控制算法，称为搜索回放缓冲（SoRB），可以自动生成子目标序列并解决高维度的长期任务。

Jun, 2019

学习用于规划的抽象且可迁移的表示

该论文提出了一个框架来自我学习代理环境的状态抽象，这些抽象是任务无关的可重用的，从而显著提高了学习效率和代理任务解决的能力。

May, 2022

自适应前瞻规划与学习

本研究介绍了一种新的强化学习框架，提出了基于状态相关价值估计的自适应规划水平选择策略，并设计了相应的深度 Q 网络算法，最后在迷宫环境和 Atari 上验证了方法的有效性。

Jan, 2022

基于模型的强化学习通过潜空间配置

该研究使用学习的潜在状态空间模型，结合目测模型强化学习方法，提出了一种优化潜在状态轨迹的 LatCo 方法，来解决长时程、奖励稀疏的任务。通过序列规划，相比于之前使用的射击方法，该方法在历经时间过程中的效果更好。

Jun, 2021

大型部分可观察环境中的顺序计划引导 LLMs

通过结合状态空间搜索和基于自然语言模型的查询，我们提出了一种混合代理方法 neoplanner，以最大化状态值的上界来平衡探索和开发，并通过查询自然语言模型以生成行动计划，进一步提高了大规模状态空间和行动空间的顺序规划的性能。

Dec, 2023

多智能体路径规划中基于长短时记忆的空间编码

本文提出了一个基于强化学习的路径规划方法，可以应用到多经纬系统，通过训练一个连续状态和动作的策略网络，使其具有理想的路径规划行为，该方法通过 LSTM 模块来编码不特定数量的状态，可以扩展到具有无限数量代理和维度的情形，同时使用低成本的硬件平台进行实现。实验表明所提出的方法能成功地使 4 个自主导航的飞行器在现实世界环境中无碰撞地导航。

Mar, 2022

PRM-RL: 结合强化学习与采样规划的长程机器人导航任务

PRM-RL 是一种利用采样路径规划结合强化学习实现远程导航的分层方法，其中 RL 代理通过学习短距离点到点导航策略，采用面向特征和深度神经网络及 PRMs 进行构建，并通过采样计划器提供的规划路径实现机器人的控制。PRM-RL 的应用结果表明，在室内和城市环境下，比起单独使用 RL 代理或传统的采样路径规划方法，PRM-RL 实现了任务完成度的显著提升，在噪声传感器条件下成功完成长达 215 米的轨迹，且实现了对 1,000 米长的空中货运的无违约任务达成。

Oct, 2017

短期预测实现长期规划

通过将规划问题分为两个阶段（预测和建模），使用递归神经网络，利用监督学习技术通过对输入节点进行优化来解决长期规划问题，从而在自动驾驶应用中学习鲁棒政策，并纳入敌对因素以优化环境。

Feb, 2016

AdaPlanner：使用语言模型的自适应反馈规划

本文提出了 AdaPlanner，一种基于闭环反馈的语言模型智能体自适应地改进生成的计划，并通过新的技能发现机制，使其能够在更复杂的任务和环境中实现更好的连续决策性能，实验结果表明 AdaPlanner 在 ALFWorld 和 MiniWoB++ 环境中优于现有的基线算法。

May, 2023