基于经验规划与自我模仿学习的机器人运动规划的强化学习

Jun, 2023

基于经验规划与自我模仿学习的机器人运动规划的强化学习

Reinforcement Learning in Robotic Motion Planning by Combined Experience-based Planning and Self-Imitation Learning

Sha Luo, Lambert Schomaker

TL;DR本文提出了一种称为 SILP + 算法的自我模仿学习方法，将基于经验的规划有效地嵌入到学习架构中，从而缓解了机器人运动规划任务中的数据采集问题，并在复杂的运动规划任务中取得了更好的培训效率和更高稳定的成功率。

Abstract

High-quality and representative data is essential for both imitation learning (IL)- and reinforcement learning (RL)-based motion planning

imitation learning reinforcement learning motion planning self-imitation learning data collection

发现论文，激发创造

利用强化学习进行神经运动规划

本研究通过比较监督式学习与强化学习算法，提出了一个适用于动作规划领域的 DDPG-MP 算法，该算法有助于解决运动规划中数据不足的问题，并在新领域的规划中实现了较快速度。

Jun, 2019

模仿引导强化学习

利用有限的模仿数据进行自主性提升的开创性框架 —— 模仿引导强化学习（IBRL），在从像素学习的模拟中实现了 7 个具有挑战性的稀疏奖励连续控制任务的最新性能和样本效率，是 RLPD 方法的 6.4 倍成功率的新亮点。

Nov, 2023

模仿，快与慢：通过决策时规划的演示鲁棒学习

提出了一种新的模拟学习元算法 IMPLANT，利用决策时间规划来纠正模仿策略的复合误差，从而实现比基准模仿学习方法更好的实验效果，在挑战性测试时动态运行。

Apr, 2022

基于数据驱动的模仿学习规划

利用数据驱动的模仿学习框架，通过模仿一个清晰的预测者，解决了机器人规划中的优化问题，从而为序列决策制定了更好的战略。在信息不完整的计划问题上进行了验证，包括真实的无人机实验，并且表现优于现有的算法。

Nov, 2017

灵活推理、规划和控制的深度仿真模型

本文提出了模仿模型方法，将模仿学习和目标导向规划相结合，使用概率预测模型生成解释性的专家级轨迹，以实现特定目标。在动态模拟自主驾驶任务中，我们的方法显著优于六种模仿学习方法和一种基于规划的方法，并可以从专家演示中高效地学习。此外，我们的方法对于目标规范不良的情况具有鲁棒性。

Oct, 2018

融合模仿学习和强化学习以实现鲁棒的策略改进

该研究通过融合强化学习和模仿学习的方法，利用自适应的策略选择和梯度优化算法，在稀疏奖励场景下有效提高样本效率，并在多个基准领域中展现出卓越的性能。

Oct, 2023

基于强化学习的行为规划与采样运动规划的自动驾驶集成

本文提出一种利用深度强化学习的自主驾驶行为规划模型，通过预测未来交通情况，将高层行为规划接口化，并通过循环规划策略进行实验验证。

Apr, 2023

模拟最短路径实现在真实世界中的有效导航和操作

在这项工作中，我们展示了在模拟环境中模仿最短路径规划者能够产生使得智能体可以根据语言指令熟练地导航、探索和操作对象的代理，仅使用 RGB 传感器（无深度图或 GPS 坐标）。这一令人惊讶的结果得益于我们的端到端、基于 transformer 的 SPOC 架构、强大的视觉编码器以及大规模且多样化的训练数据：在大约 200,000 个程序生成的房屋中收集了数百万帧最短路径专家轨迹，涵盖了 40,000 个独特的 3D 资源。我们的模型、数据、训练代码和新提出的十项任务基准套件 CHORES 将全部开源。

Dec, 2023

从次优演示中学习稀疏奖励任务

本文提出了自适应模仿学习（SAIL）算法，该算法利用了有限数量的次优演示来实现高度挑战性的稀疏奖励任务，并显著提高了样本效率和最终性能。

Apr, 2020

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022