在计划空间规划中学习和调优元启发式算法
研究领域特定规划的学习启发式,通过学习排名问题,引入了新的方法来计算捕获近似计划中的时间交互的特征。在最近的国际规划竞赛问题上进行的实验表明,RankSVM 学习启发式优于原始启发式和通过普通回归学习的启发式。
Aug, 2016
建议并评估了一种系统,该系统学习了一种用于基于正向搜索的满足经典规划的神经网络启发式函数。我们的系统从头开始学习目标估计器,并生成训练数据。通过反向回归搜索或通过反向搜索从给定或猜测的目标状态生成培训数据。
Jun, 2023
提出了一种 POLO (计划在线,学习离线) 框架,利用局部基于模型的控制、全局价值函数学习和探索之间的协同关系来解决需要不断在世界中行动和学习的代理问题,并探讨了轨迹优化、价值函数的近似和不确定性估计等方面的问题,最终在几分钟的真实世界体验中解决了类人运动和灵巧的手中操作这样的复杂模拟控制任务。
Nov, 2018
当前的学习规划方法在几个领域中仍无法与经典规划器达到竞争力的性能,并具有较差的综合性能。本研究提出了一种构建新颖的图表示的提升规划任务,并使用 WL 算法从中生成特征的方法。这些特征与传统机器学习方法结合使用,其参数数量比最先进的深度学习规划模型少 2 个数量级,训练速度快 3 个数量级。我们的新方法 WL-GOOSE 可可靠地从头开始学习启发式,并在公平竞争环境中优于 $h^{ext {FF}}$ 启发式。在 10 个领域中 WL-GOOSE 在覆盖率上优于或与 LAMA 持平,在计划质量上优于 LAMA 的 4 个领域。WL-GOOSE 是第一个在学习规划模型中取得这些成就的模型。此外,我们还研究了我们的新型 WL 特征生成方法、先前的理论化学习架构和用于规划的描述逻辑特征之间的联系。
Mar, 2024
使用反馈强化学习优化(RLO)和贝叶斯优化(BO)进行比较研究,在实际粒子加速器任务中,发现 RLO 通常表现更优,但并非在所有情况下都是最佳选择。基于研究结果,提供了一组明确的标准,以指导选择给定调谐任务的算法。
Jun, 2023
本文介绍了一种基于在线学习的、可提高计划的效率的方法,该方法通过自适应决策确定使用哪个模拟器,以实现计划过程中的精度与速度之间的平衡。实验结果表明,该方法在两个大领域中与 POMCP 集成后可以使计划效率得到提高。
Jan, 2022
LatPlan 通过无标签图像数据学习领域无关的经典计划器模型,提出了基于可信性的启发式方法 PBH,可以显著提高图像拼图和汉诺塔领域的有效解决方案数量。
Jun, 2023
本文提出了一种名为 Planning to Practice(PTP)的方法,旨在解决普适性机器人面临的目标达成困难和训练代价高的问题,通过分解目标化问题和离线增强学习与在线探索相结合的方法,实现对复杂任务的有效训练和解决。
May, 2022