PALMER:感知 - 动作循环,带有长视距规划记忆
本文提出并演示了一种精确学习环境模型的新算法,该算法从行动 - 观测对的序列中直接学习此类环境的模型,并通过在学习的模型中进行规划并恢复一个接近原始环境的最优策略实现从观测到行动的闭环。
Dec, 2009
本研究介绍了一种新的强化学习框架,提出了基于状态相关价值估计的自适应规划水平选择策略,并设计了相应的深度 Q 网络算法,最后在迷宫环境和 Atari 上验证了方法的有效性。
Jan, 2022
该研究使用学习的潜在状态空间模型,结合目测模型强化学习方法,提出了一种优化潜在状态轨迹的 LatCo 方法,来解决长时程、奖励稀疏的任务。通过序列规划,相比于之前使用的射击方法,该方法在历经时间过程中的效果更好。
Jun, 2021
通过结合状态空间搜索和基于自然语言模型的查询,我们提出了一种混合代理方法 neoplanner,以最大化状态值的上界来平衡探索和开发,并通过查询自然语言模型以生成行动计划,进一步提高了大规模状态空间和行动空间的顺序规划的性能。
Dec, 2023
本文提出了一个基于强化学习的路径规划方法,可以应用到多经纬系统,通过训练一个连续状态和动作的策略网络,使其具有理想的路径规划行为,该方法通过 LSTM 模块来编码不特定数量的状态,可以扩展到具有无限数量代理和维度的情形,同时使用低成本的硬件平台进行实现。实验表明所提出的方法能成功地使 4 个自主导航的飞行器在现实世界环境中无碰撞地导航。
Mar, 2022
PRM-RL 是一种利用采样路径规划结合强化学习实现远程导航的分层方法,其中 RL 代理通过学习短距离点到点导航策略,采用面向特征和深度神经网络及 PRMs 进行构建,并通过采样计划器提供的规划路径实现机器人的控制。PRM-RL 的应用结果表明,在室内和城市环境下,比起单独使用 RL 代理或传统的采样路径规划方法,PRM-RL 实现了任务完成度的显著提升,在噪声传感器条件下成功完成长达 215 米的轨迹,且实现了对 1,000 米长的空中货运的无违约任务达成。
Oct, 2017
通过将规划问题分为两个阶段(预测和建模),使用递归神经网络,利用监督学习技术通过对输入节点进行优化来解决长期规划问题,从而在自动驾驶应用中学习鲁棒政策,并纳入敌对因素以优化环境。
Feb, 2016
本文提出了 AdaPlanner,一种基于闭环反馈的语言模型智能体自适应地改进生成的计划,并通过新的技能发现机制,使其能够在更复杂的任务和环境中实现更好的连续决策性能,实验结果表明 AdaPlanner 在 ALFWorld 和 MiniWoB++ 环境中优于现有的基线算法。
May, 2023