通过神经探索开发树学习在高维度中规划

ICLRFeb, 2019

通过神经探索开发树学习在高维度中规划

Learning to Plan in High Dimensions via Neural Exploration-Exploitation Trees

Binghong Chen, Bo Dai, Qinjie Lin, Guo Ye, Han Liu...

TL;DR我们提出了一种元路径规划算法，名为神经探索利用树（NEXT），用于从先前经验中学习以解决高维连续状态和动作空间中的新路径规划问题。与 RRT 等更经典的基于采样的方法相比，我们的方法在高维度中实现了更好的样本效率，并且可以从规划类似环境的先前经验中受益。具体而言，NEXT 利用一种新颖的神经结构，可以从问题结构中学习有希望的搜索方向。然后将学习到的先验知识集成到一种 UCB 类型的算法中，以在线实现在解决新问题时探索与开发之间的平衡。我们进行了详尽的实验，表明 NEXT 可以实现更简洁的搜索树来解决新的规划问题，并且在几个基准测试中显着优于现有方法。

Abstract

We propose a meta path planning algorithm named \emph{Neural Exploration-Exploitation Trees~(NEXT)} for learning from prior experience for solving new path planning problems in high dimensional continuous state a

meta path planning neural exploration-exploitation trees prior experience high-dimensional continuous state online balance

发现论文，激发创造

连续状态空间中的显式探索 - 利用算法

提出了一种基于模型的强化学习算法，该算法包括明确的探索和利用阶段，并适用于大规模或无限状态空间，该算法维护一组与当前体验一致的动态模型，并通过查找在状态预测之间引起高度分歧的策略来进行探索，然后利用精细化的模型或在探索过程中收集的体验，我们证明，在实现和最优规划的假设下，我们的算法能够用多项式结构复杂度度量在很多自然设置中得到完美的政策，并给出了一个使用神经网络的实用近似，并证明了它在实践中的性能和样本效率。

Nov, 2019

长期任务规划的广泛探索，本地策略树

研究通过将传统的运动规划算法和机器学习相结合，在高维状态空间中执行长时程、连续任务的计划，提出了一种名为 BELT 的任务条件、基于模型的树搜索方法。

Oct, 2020

使用深度学习和树搜索加速思维过程

本文介绍 Expert Iteration (ExIt), 一种将强化学习问题分解为计划和泛化任务的算法，使用深度神经网络实现泛化，使用树搜索实现计划，相比于标准深度强化学习算法，ExIt 在训练神经网络玩十六进制棋时表现更好，并最终战胜了公开发布的最新奥运会冠军选手 MoHex 1.0。

May, 2017

基于贝叶斯的在线规划

蒙特卡洛树搜索和神经网络的结合彻底改变了在线规划。我们提出了一种贝叶斯规划方法，通过经典元推理文献中的思想，利用神经网络输出的不确定性估计来改善规划。我们在可能行动的树中提出了一种基于汤普森抽样的搜索算法，并证明了有限时间的贝叶斯后悔上界，同时提出了适用于树的 Bayes-UCB 方法的变体。实验证明，在 ProcGen Maze 和 Leaper 环境中，当不确定性估计是准确的但神经网络输出不准确时，我们的贝叶斯方法在搜索树方面更加有效。此外，我们调查了流行的不确定性估计方法是否足够准确，能否带来重要的规划收益。

Jun, 2024

在具有挑战性的环境中，将神经网络和树搜索结合用于任务和动作规划

利用深度神经网络和强化学习技术，结合蒙特卡罗方法和分层控制策略，解决了复杂动态环境下行车规划的问题，提出了一种用于道路自动驾驶的方案。该方案使用 LTL 约束条件和控制策略，训练神经网络，在规避交通事故、遵守交通规则的前提下，行驶到指定的终点。

Mar, 2017

可转移的图探索学习

该研究考虑了人工智能中尚未开发过的环境在探索方面的问题，并提出了一种从环境分布中学习策略的方法，将其作为强化学习任务来处理，以期能够在最短的步数内访问尽可能多的独特状态。实验结果表明，该方法在空间地图探索和领域特定程序和现实世界移动应用的覆盖率导向软件测试方面表现出色。

Oct, 2019

学习使用不确定拓扑地图进行规划

本文采用一种数据驱动的策略和基于图像的规划，应用于 3D 环境中的导航系统，通过机器学习方法实现了图像哈希表上的最短路径规划，比传统符号算法更优秀。

Jul, 2020

大型部分可观察环境中的顺序计划引导 LLMs

通过结合状态空间搜索和基于自然语言模型的查询，我们提出了一种混合代理方法 neoplanner，以最大化状态值的上界来平衡探索和开发，并通过查询自然语言模型以生成行动计划，进一步提高了大规模状态空间和行动空间的顺序规划的性能。

Dec, 2023

使用神经网络学习特定搜索空间启发式算法

建议并评估了一种系统，该系统学习了一种用于基于正向搜索的满足经典规划的神经网络启发式函数。我们的系统从头开始学习目标估计器，并生成训练数据。通过反向回归搜索或通过反向搜索从给定或猜测的目标状态生成培训数据。

Jun, 2023

行星车快速且最优的基于学习的路径规划方法

智能自主路径规划的关键是提高行星探测器的探索效率。本文提出了一种基于学习的方法，用于在高程地图中快速搜索最优路径，称为 NNPP 模型。该模型通过大量预注释的最优路径示范中学习起点和目标位置的语义信息以及地图表示，并生成每个像素的概率分布，表示其属于地图上最优路径的可能性。通过计算从 DEM 中获得的坡度、粗糙度和高度差来计算每个网格单元的遍历成本。随后，使用高斯分布对起点和目标位置进行编码，并分析不同位置编码参数对模型性能的影响。在训练后，NNPP 模型能够在新颖的地图上进行路径规划。实验证明，NNPP 模型生成的导航场能够在相同硬件条件下显著缩短寻找最优路径的时间，并且 NNPP 的优势随着地图规模的增加而增加。

Aug, 2023