DART:注入噪声以实现鲁棒性模仿学习
本文讨论了在学习策略时,监督者可能会变化的问题,并提出了一种从收敛监督者进行模仿学习并对其进行形式化。此外,作者将此框架与一类强化学习算法(DPI)相连,并在实验中使用最新的深度模型为监督者的方法在连续控制任务中获得了比深度强化学习基线更好的结果,并提供了多达 80 倍的策略评估加速。
Jul, 2019
本文介绍了 ThriftyDAgger 算法,针对需要在线人工反馈和干预的机器人学习问题,提出了在规定的干预预算内主动询问人类监管者的方法,并通过实验发现其干预策略更加有效平衡了任务表现和监管者负担,同时提高了人和机器人的性能。
Sep, 2021
通过使用强化学习和用户干预信号本身作为奖励函数,我们提出了一种新的方法来改进交互式模仿学习,克服了潜在次优人类专家的限制,并在挑战性的控制问题中具有较好的性能。
Nov, 2023
本文提出了一种基于概率 DAgger 的算法,使用了 dropout 训练新手并提供其置信度,通过新手行为分布估计与专家行为相关的安全的概率度量,以平衡探索和利用,在 MuJoCo HalfCheetah 和简单的驾驶实验中证明了与其他 DAgger 变体和经典模仿学习相比的性能和安全性的提高。
Sep, 2017
本研究提出了 HG-DAgger 算法,该算法是 DAgger 算法在交互式人机模仿学习方面更为适用的变体,它不仅训练一个初学者策略,还学习了基于模型不确定性的风险度量的安全阈值,以预测状态空间中不同区域的完全训练初学者的性能,在模拟和实际的自动驾驶任务中,HG-DAgger 算法表现出比 DAgger 和行为克隆更好的性能。
Oct, 2018
LazyDAgger 是一种互动式的模仿学习算法,通过减少监督员和自主控制之间的上下文切换次数,提高了学习和执行过程中所学策略的性能和鲁棒性,且在限制监督员负担的同时,能够在 3 个连续控制任务中平均减少 60%的上下文切换,并在 ABB YuMi 机器人的物理织物操作实验中成功率比 SafeDAgger 高 60%。
Mar, 2021
本文提出一种名为 EnsembleDAgger 的算法,其通过使用神经网络集合来近似高斯过程,并以方差作为信心的衡量标准,在最大化学习效果的同时,限制了失败的可能性,从而提高了机器人的安全性能。
Jul, 2018
SAFE-GIL 通过对专家进行对抗性干扰来引导数据采集,从而解决行为克隆方法的 “错误混合问题”,在安全关键状态下更接近专家行为,并在低数据情况下提高任务成功率和安全性。
Apr, 2024
提出了一种名为模仿学习(ItorL)的新主题,旨在基于非常有限的专家示范实现即时重构模仿策略,用于不同的未知任务,无需任何额外的调整。通过将模仿学习集成到强化学习范式中,设计了 Demo-Attention Actor-Critic(DAAC)来解决 ItorL 问题,并为模仿者策略设计了一种基于示范的注意力架构,可以通过自适应追踪示范中的适当状态有效地输出模仿动作。在新的导航基准和机器人环境中,展示出 DAAC 在已知和未知任务上均比之前的模仿方法有着显著的优势。
Oct, 2023