DropoutDAgger: 一种安全模仿学习的贝叶斯方法

Sep, 2017

DropoutDAgger: 一种安全模仿学习的贝叶斯方法

DropoutDAgger: A Bayesian Approach to Safe Imitation Learning

Kunal Menda, Katherine Driggs-Campbell, Mykel J. Kochenderfer

TL;DR本文提出了一种基于概率 DAgger 的算法，使用了 dropout 训练新手并提供其置信度，通过新手行为分布估计与专家行为相关的安全的概率度量，以平衡探索和利用，在 MuJoCo HalfCheetah 和简单的驾驶实验中证明了与其他 DAgger 变体和经典模仿学习相比的性能和安全性的提高。

Abstract

While imitation learning is becoming common practice in robotics, this approach often suffers from data mismatch and compounding errors. dagger is an iterative algorithm that addresses these issues by continually

imitation learning dagger safety probabilistic bayesian neural network

发现论文，激发创造

EnsembleDAgger：一种安全模仿学习的贝叶斯方法

本文提出一种名为 EnsembleDAgger 的算法，其通过使用神经网络集合来近似高斯过程，并以方差作为信心的衡量标准，在最大化学习效果的同时，限制了失败的可能性，从而提高了机器人的安全性能。

Jul, 2018

HG-DAgger：人机交互式模仿学习

本研究提出了 HG-DAgger 算法，该算法是 DAgger 算法在交互式人机模仿学习方面更为适用的变体，它不仅训练一个初学者策略，还学习了基于模型不确定性的风险度量的安全阈值，以预测状态空间中不同区域的完全训练初学者的性能，在模拟和实际的自动驾驶任务中，HG-DAgger 算法表现出比 DAgger 和行为克隆更好的性能。

Oct, 2018

DADAgger：基于分歧扩增的数据集聚合

本文介绍了一种改进的 DAgger 算法 ——DADAgger，它只针对其原数据集中的分布不一致的状态 - 行动对询问专家，并通过 dropout 模拟来测量每个状态的模型预测的行动方差，进而实现高效、良好平衡的训练数据集的构建。

Jan, 2023

扩散遇到 DAgger：增强视觉手眼协调模仿学习

为了解决在执行过程中模拟训练策略中的错误累积问题，本研究提出了一种不需要昂贵代价的 Diffusion Meets DAgger（DMD）方法，利用扩散模型生成能够覆盖分布外状态的样本，从而实现从少量示范中获得稳健性能，实验证明 DMD 比基于 NeRF 的增强方案提高了 50% 的性能。

Feb, 2024

端到端自主驾驶的高效查询模仿学习

本论文介绍了一种名为 SafeDAgger 的基于 DAgger 算法的自动驾驶智能学习方法，能够有效地减少对参考策略的查询次数，加快收敛速度。

May, 2016

LazyDAgger: 降低交互式模仿学习中的上下文切换

LazyDAgger 是一种互动式的模仿学习算法，通过减少监督员和自主控制之间的上下文切换次数，提高了学习和执行过程中所学策略的性能和鲁棒性，且在限制监督员负担的同时，能够在 3 个连续控制任务中平均减少 60％的上下文切换，并在 ABB YuMi 机器人的物理织物操作实验中成功率比 SafeDAgger 高 60％。

Mar, 2021

ThriftyDAgger: 交互式模仿学习中的预算感知新颖性和风险控制

本文介绍了 ThriftyDAgger 算法，针对需要在线人工反馈和干预的机器人学习问题，提出了在规定的干预预算内主动询问人类监管者的方法，并通过实验发现其干预策略更加有效平衡了任务表现和监管者负担，同时提高了人和机器人的性能。

Sep, 2021

RLIF：交互仿真学习作为强化学习

通过使用强化学习和用户干预信号本身作为奖励函数，我们提出了一种新的方法来改进交互式模仿学习，克服了潜在次优人类专家的限制，并在挑战性的控制问题中具有较好的性能。

Nov, 2023

DART：注入噪声以实现鲁棒性模仿学习

提出了一种注入噪音的离策略方法，在演示时将噪音注入到导师的策略中，强制演示如何从错误中恢复。通过 DART 算法在仿真和实验中的比较，证明了该方法的有效性。

Mar, 2017

SAFE-GIL：安全引导的模仿学习

SAFE-GIL 通过对专家进行对抗性干扰来引导数据采集，从而解决行为克隆方法的 “错误混合问题”，在安全关键状态下更接近专家行为，并在低数据情况下提高任务成功率和安全性。

Apr, 2024