通过模仿学习启发式搜索

Jul, 2017

Learning Heuristic Search via Imitation

Mohak Bhardwaj, Sanjiban Choudhury, Sebastian Scherer

TL;DR使用 SaIL 特有的算法，训练启发式策略来遍历搜索树中的节点，以减少搜索次数。实验证明 SaIL 算法在实时规划环境中优于现有算法，这为学习体现 ' 快速找到可行解并随时间增量调整 ' 的启发式方法铺平了道路。

Abstract

robotic motion planning problems are typically solved by constructing a search tree of valid maneuvers from a start to a goal configuration. Limited onboard computation and →

robotic motion planning heuristic policy training algorithm search tree real-time planning

发现论文，激发创造

基于数据驱动的模仿学习规划

利用数据驱动的模仿学习框架，通过模仿一个清晰的预测者，解决了机器人规划中的优化问题，从而为序列决策制定了更好的战略。在信息不完整的计划问题上进行了验证，包括真实的无人机实验，并且表现优于现有的算法。

Nov, 2017

学习图搜索启发式

PHIL (Path Heuristic with Imitation Learning) is a neural architecture and training algorithm that uses imitation learning and graph representation learning to discover graph search and navigation heuristics from data, reducing the number of explored nodes by 58.5% compared to state-of-the-art methods on benchmark datasets and allowing for fast planning in time-critical robotics domains.

Dec, 2022

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

优化规划启发式算法，以排序而非估算目标开销

本论文重新审视了启发式函数在规划中的模仿学习中的必要和充分条件，并针对给定的前向搜索算法的变体提出了一族基于排名的损失函数。另外，从学习理论的角度讨论了为什么优化成本 - 目标 h * 是不必要困难的。实验比较在多样化的问题集上明确地支持了得出的理论。

Oct, 2023

使用神经网络学习特定搜索空间启发式算法

建议并评估了一种系统，该系统学习了一种用于基于正向搜索的满足经典规划的神经网络启发式函数。我们的系统从头开始学习目标估计器，并生成训练数据。通过反向回归搜索或通过反向搜索从给定或猜测的目标状态生成培训数据。

Jun, 2023

灵活推理、规划和控制的深度仿真模型

本文提出了模仿模型方法，将模仿学习和目标导向规划相结合，使用概率预测模型生成解释性的专家级轨迹，以实现特定目标。在动态模拟自主驾驶任务中，我们的方法显著优于六种模仿学习方法和一种基于规划的方法，并可以从专家演示中高效地学习。此外，我们的方法对于目标规范不良的情况具有鲁棒性。

Oct, 2018

通过模仿学习信息聚集

本篇论文研究的是一个应用于移动机器人自主探索和检查的问题，即在燃料预算有限的情况下最大化从世界中获取的信息量的问题。作者提出了一种新颖的数据驱动的模仿学习框架，并通过 EXPLORE 算法来训练一个策略以模仿一个有完整信息并计算非简约解来最大化获取信息的先知，验证了这一方法在不同对象分布上的适应能力。

Nov, 2016

模拟最短路径实现在真实世界中的有效导航和操作

在这项工作中，我们展示了在模拟环境中模仿最短路径规划者能够产生使得智能体可以根据语言指令熟练地导航、探索和操作对象的代理，仅使用 RGB 传感器（无深度图或 GPS 坐标）。这一令人惊讶的结果得益于我们的端到端、基于 transformer 的 SPOC 架构、强大的视觉编码器以及大规模且多样化的训练数据：在大约 200,000 个程序生成的房屋中收集了数百万帧最短路径专家轨迹，涵盖了 40,000 个独特的 3D 资源。我们的模型、数据、训练代码和新提出的十项任务基准套件 CHORES 将全部开源。

Dec, 2023

基于力控制的机器人在随机环境中的优化搜索策略

本文介绍了一种基于神经网络模型的机器人搜索策略自动优化方法，通过在大量虚拟环境中训练和少量真实环境测试进行反演，能够适应底层概率分布的时间变化特征，同时减少实际测试的数量，并在螺旋和探头搜索 THT 电子组件装配的两个工业机器人上进行了评估。

Jul, 2022

学习 A * 启发式算法

本文利用神经演算法推导出高效的启发式路径搜索算法，结合 Dijkstra 算法和 A * 算法中的一致的启发函数，并将其推广应用于图形中的路径搜索问题，结果表明相较于 Dijkstra 算法，应用基于学习到的 A * 算法中的启发函数的改进搜索在无损质量的情况下，实现了大幅的速度提升。

Apr, 2022