通过模仿学习启发式搜索
利用数据驱动的模仿学习框架,通过模仿一个清晰的预测者,解决了机器人规划中的优化问题,从而为序列决策制定了更好的战略。在信息不完整的计划问题上进行了验证,包括真实的无人机实验,并且表现优于现有的算法。
Nov, 2017
PHIL (Path Heuristic with Imitation Learning) is a neural architecture and training algorithm that uses imitation learning and graph representation learning to discover graph search and navigation heuristics from data, reducing the number of explored nodes by 58.5% compared to state-of-the-art methods on benchmark datasets and allowing for fast planning in time-critical robotics domains.
Dec, 2022
本文介绍了一种基于序列归纳偏置的,从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法,将复杂任务拆分成较小的技能,将技能训练为 (goal-conditioned policy),以便能够逐个解决每个技能并连接技能以完成整个任务,同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。
Apr, 2022
本论文重新审视了启发式函数在规划中的模仿学习中的必要和充分条件,并针对给定的前向搜索算法的变体提出了一族基于排名的损失函数。另外,从学习理论的角度讨论了为什么优化成本 - 目标 h * 是不必要困难的。实验比较在多样化的问题集上明确地支持了得出的理论。
Oct, 2023
建议并评估了一种系统,该系统学习了一种用于基于正向搜索的满足经典规划的神经网络启发式函数。我们的系统从头开始学习目标估计器,并生成训练数据。通过反向回归搜索或通过反向搜索从给定或猜测的目标状态生成培训数据。
Jun, 2023
本文提出了模仿模型方法,将模仿学习和目标导向规划相结合,使用概率预测模型生成解释性的专家级轨迹,以实现特定目标。在动态模拟自主驾驶任务中,我们的方法显著优于六种模仿学习方法和一种基于规划的方法,并可以从专家演示中高效地学习。此外,我们的方法对于目标规范不良的情况具有鲁棒性。
Oct, 2018
本篇论文研究的是一个应用于移动机器人自主探索和检查的问题,即在燃料预算有限的情况下最大化从世界中获取的信息量的问题。作者提出了一种新颖的数据驱动的模仿学习框架,并通过 EXPLORE 算法来训练一个策略以模仿一个有完整信息并计算非简约解来最大化获取信息的先知,验证了这一方法在不同对象分布上的适应能力。
Nov, 2016
在这项工作中,我们展示了在模拟环境中模仿最短路径规划者能够产生使得智能体可以根据语言指令熟练地导航、探索和操作对象的代理,仅使用 RGB 传感器(无深度图或 GPS 坐标)。这一令人惊讶的结果得益于我们的端到端、基于 transformer 的 SPOC 架构、强大的视觉编码器以及大规模且多样化的训练数据:在大约 200,000 个程序生成的房屋中收集了数百万帧最短路径专家轨迹,涵盖了 40,000 个独特的 3D 资源。我们的模型、数据、训练代码和新提出的十项任务基准套件 CHORES 将全部开源。
Dec, 2023
本文介绍了一种基于神经网络模型的机器人搜索策略自动优化方法,通过在大量虚拟环境中训练和少量真实环境测试进行反演,能够适应底层概率分布的时间变化特征,同时减少实际测试的数量,并在螺旋和探头搜索 THT 电子组件装配的两个工业机器人上进行了评估。
Jul, 2022
本文利用神经演算法推导出高效的启发式路径搜索算法,结合 Dijkstra 算法和 A * 算法中的一致的启发函数,并将其推广应用于图形中的路径搜索问题,结果表明相较于 Dijkstra 算法,应用基于学习到的 A * 算法中的启发函数的改进搜索在无损质量的情况下,实现了大幅的速度提升。
Apr, 2022