在计划空间规划中学习和调优元启发式算法

AAAIJan, 2016

在计划空间规划中学习和调优元启发式算法

Learning and Tuning Meta-heuristics in Plan Space Planning

Shashank Shekhar, Deepak Khemani

TL;DR本文介绍了两种方法来改善 POCL 规划器的性能，包括使用有监督学习算法优化 POCL 规划器和使用在线误差最小化方法进一步提高模型的信息量。实验证明，这些学习方法可扩展规划器的性能，特别是在处理较大问题时更为有效。

Abstract

In recent years, the planning community has observed that techniques for learning heuristic functions have yielded improvements in performance. One approach is to use offline learning to learn →

heuristic functions offline learning predictive models online tuning pocl planning

发现论文，激发创造

朝向学习领域独立规划启发式方法

利用机器学习获取领域无关的启发式函数以提高自动规划在不同领域系统中的实际应用。

Jul, 2017

学习排名以合成规划启发式方法

研究领域特定规划的学习启发式，通过学习排名问题，引入了新的方法来计算捕获近似计划中的时间交互的特征。在最近的国际规划竞赛问题上进行的实验表明，RankSVM 学习启发式优于原始启发式和通过普通回归学习的启发式。

Aug, 2016

使用神经网络学习特定搜索空间启发式算法

建议并评估了一种系统，该系统学习了一种用于基于正向搜索的满足经典规划的神经网络启发式函数。我们的系统从头开始学习目标估计器，并生成训练数据。通过反向回归搜索或通过反向搜索从给定或猜测的目标状态生成培训数据。

Jun, 2023

在线规划，离线学习：基于模型控制的高效学习和探索

提出了一种 POLO (计划在线，学习离线) 框架，利用局部基于模型的控制、全局价值函数学习和探索之间的协同关系来解决需要不断在世界中行动和学习的代理问题，并探讨了轨迹优化、价值函数的近似和不确定性估计等方面的问题，最终在几分钟的真实世界体验中解决了类人运动和灵巧的手中操作这样的复杂模拟控制任务。

Nov, 2018

回归传统：用传统机器学习学习可靠的启发式方法

当前的学习规划方法在几个领域中仍无法与经典规划器达到竞争力的性能，并具有较差的综合性能。本研究提出了一种构建新颖的图表示的提升规划任务，并使用 WL 算法从中生成特征的方法。这些特征与传统机器学习方法结合使用，其参数数量比最先进的深度学习规划模型少 2 个数量级，训练速度快 3 个数量级。我们的新方法 WL-GOOSE 可可靠地从头开始学习启发式，并在公平竞争环境中优于 $h^{ext {FF}}$ 启发式。在 10 个领域中 WL-GOOSE 在覆盖率上优于或与 LAMA 持平，在计划质量上优于 LAMA 的 4 个领域。WL-GOOSE 是第一个在学习规划模型中取得这些成就的模型。此外，我们还研究了我们的新型 WL 特征生成方法、先前的理论化学习架构和用于规划的描述逻辑特征之间的联系。

Mar, 2024

学做还是边做边学：强化学习与贝叶斯优化的在线连续调节

使用反馈强化学习优化（RLO）和贝叶斯优化（BO）进行比较研究，在实际粒子加速器任务中，发现 RLO 通常表现更优，但并非在所有情况下都是最佳选择。基于研究结果，提供了一组明确的标准，以指导选择给定调谐任务的算法。

Jun, 2023

具有自我改进模拟器的 POMDP 在线规划

本文介绍了一种基于在线学习的、可提高计划的效率的方法，该方法通过自适应决策确定使用哪个模拟器，以实现计划过程中的精度与速度之间的平衡。实验结果表明，该方法在两个大领域中与 POMCP 集成后可以使计划效率得到提高。

Jan, 2022

基于可信度的潜在空间经典规划启发式

LatPlan 通过无标签图像数据学习领域无关的经典计划器模型，提出了基于可信性的启发式方法 PBH，可以显著提高图像拼图和汉诺塔领域的有效解决方案数量。

Jun, 2023

学习使用不确定拓扑地图进行规划

本文采用一种数据驱动的策略和基于图像的规划，应用于 3D 环境中的导航系统，通过机器学习方法实现了图像哈希表上的最短路径规划，比传统符号算法更优秀。

Jul, 2020

在潜空间中通过组合目标实现高效在线微调

本文提出了一种名为 Planning to Practice（PTP）的方法，旨在解决普适性机器人面临的目标达成困难和训练代价高的问题，通过分解目标化问题和离线增强学习与在线探索相结合的方法，实现对复杂任务的有效训练和解决。

May, 2022