基于强化学习的机器人导航中改进的策略蒸馏

Sep, 2022

基于强化学习的机器人导航中改进的策略蒸馏

MSVIPER: Improved Policy Distillation for Reinforcement-Learning-Based Robot Navigation

Aaron M. Roth, Jing Liang, Ram Sriram, Elham Tabassi, Dinesh Manocha

TL;DR通过多个场景可验证强化学习通过策略提取（MSVIPER）提出了一种新的策略精馏方法，用于改进机器人导航。通过任何 RL 技术学习状态 - 动作映射，并使用模仿学习从中学习决策树策略，从而学习 “专家” 策略。我们通过室内和室外场景的机器人导航算法的改进演示了我们的方法。

Abstract

We present multiple scenario verifiable reinforcement learning via Policy Extraction (MSVIPER), a new method for policy distillation to decision

multiple scenario verifiable reinforcement learning policy distillation decision trees imitation learning robot navigation

发现论文，激发创造

通过策略提取实现可验证的强化学习

使用 VIPER 算法训练决策树策略来增强强化学习的安全性和验证性，它相对于其他算法在 Atari Pong 和 cart-pole 这两项任务上都有着可靠的表现。

May, 2018

使用视频预测模型作为强化学习的奖励

本研究提出了一种名为 VIPER 的算法，可以从未标记的视频中提取出训练模型，作为强化学习的无手段奖励信号，以实现专家级控制，在 Atari 和 RLBench 等任务中具有良好的通用性和扩展性。

May, 2023

VAPOR：离线强化学习下的户外植被全向腿式机器人导航

通过离线强化学习，基于高度、强度和密度的 3D LiDAR 点云，目标成本图和处理过的自体感知数据作为状态输入，我们提出了一种用于无结构、密集植被的室外环境中自主四足机器人导航的新方法。通过满足机器人运动特性且避免困在植被中，我们的方法在复杂的室外植被中展示了显著的成功率提升、平均功耗减少和轨迹长度正常化减少。

Sep, 2023

VIPeR: 基于神经函数近似的离线强化学习可证明高效算法

该研究提出了一种称为 VIPeR 的新算法，将悲观主义原则与值函数的随机扰动相结合，用于弥补当前离线 RL 算法在使用神经网络近似值函数的复杂问题上无法轻松扩展的局限，实现了具有集成学习功能的离线 RL 算法。

Feb, 2023

使用策略蒸馏和 Sim2Real 传输在现实中部署的连续强化学习

研究如何训练一个机器人能够在一个连续的学习情境中解决所有遇到的任务，而不会忘记以前的任务。研究采用强化学习算法，应用于三轮全向机器人的 2D 导航任务，通过状态表征学习和策略蒸馏的方法，提高算法的样本效率与任务综合性能。

Jun, 2019

PIRLNav：利用模仿与强化学习微调的预训练方法实现物体导航

该研究通过提出一种两阶段的学习方法，结合模仿学习和强化学习，对 ObjectGoal Navigation 问题进行研究，展示了对人类演示预训练后进行强化学习的 PIRLNav 策略，在 ObjectNav 任务上将成功率从 60.0% 提升至 65.0%。研究发现，相比自动生成的演示，人类演示更具优势，而当 IL 预训练的准确率较高时，增加训练数据集的规模对 RL 微调的影响较小，此外，还提出了进一步改进该策略的指导方针。

Jan, 2023

REvolveR：机器人间策略转移的连续进化模型

通过在物理模拟器中使用连续进化的模型来实现机器人策略的传递，可以在新机器人上实现优秀的样本利用率，特别是在稀疏奖励的情况下，可以显著减少探索。

Feb, 2022

机器人操作任务的多摄像头视角到单摄像头视角知识蒸馏的视觉策略学习

本文提出了一种通过知识蒸馏和数据增强强化单摄像头视角下机器人操作任务的强化学习算法的方法，在模拟和现实环境下进行了实验验证并取得了良好效果。

Mar, 2023

导航中基于干预支持的强化学习策略优化的安全及实际方法

本文提出了一种人工干预辅助下的强化学习框架，将深度神经网络应用于无人机自治导航，实现了减少人为干预、性能提升、安全性保障和控制成本可接受的目标。

Nov, 2018

基于视觉的自主无人机赛车的深度感觉运动策略学习

通过学习深度的感知动作策略，使用对比学习从输入图像中提取固定特征表示，通过两阶段的作弊式学习框架训练神经网络策略，将视觉驱动的自主无人机竞赛问题转化为了提取原始图像的特征表示进行控制命令推断，无需全局一致的状态估计、轨迹规划和手工控制设计。该方法不仅可使控制策略更具有鲁棒性，而且可以实现与状态法相同的赛车性能，为开发纯靠图像输入控制无人机的智能视觉自主系统铺平了道路。

Oct, 2022