扩散遇到 DAgger：增强视觉手眼协调模仿学习

Feb, 2024

扩散遇到 DAgger：增强视觉手眼协调模仿学习

Diffusion Meets DAgger: Supercharging Eye-in-hand Imitation Learning

Xiaoyu Zhang, Matthew Chang, Pranav Kumar, Saurabh Gupta

TL;DR为了解决在执行过程中模拟训练策略中的错误累积问题，本研究提出了一种不需要昂贵代价的 Diffusion Meets DAgger（DMD）方法，利用扩散模型生成能够覆盖分布外状态的样本，从而实现从少量示范中获得稳健性能，实验证明 DMD 比基于 NeRF 的增强方案提高了 50% 的性能。

Abstract

A common failure mode for policies trained with imitation is compounding execution errors at test time. When the learned policy encounters states that were not present in the expert demonstrations, the policy fails, leading to degenerate behavior. The →

failure mode imitation learning dataset aggregation diffusion meets dagger eye-in-hand imitation learning

发现论文，激发创造

HG-DAgger：人机交互式模仿学习

本研究提出了 HG-DAgger 算法，该算法是 DAgger 算法在交互式人机模仿学习方面更为适用的变体，它不仅训练一个初学者策略，还学习了基于模型不确定性的风险度量的安全阈值，以预测状态空间中不同区域的完全训练初学者的性能，在模拟和实际的自动驾驶任务中，HG-DAgger 算法表现出比 DAgger 和行为克隆更好的性能。

Oct, 2018

DropoutDAgger: 一种安全模仿学习的贝叶斯方法

本文提出了一种基于概率 DAgger 的算法，使用了 dropout 训练新手并提供其置信度，通过新手行为分布估计与专家行为相关的安全的概率度量，以平衡探索和利用，在 MuJoCo HalfCheetah 和简单的驾驶实验中证明了与其他 DAgger 变体和经典模仿学习相比的性能和安全性的提高。

Sep, 2017

DADAgger：基于分歧扩增的数据集聚合

本文介绍了一种改进的 DAgger 算法 ——DADAgger，它只针对其原数据集中的分布不一致的状态 - 行动对询问专家，并通过 dropout 模拟来测量每个状态的模型预测的行动方差，进而实现高效、良好平衡的训练数据集的构建。

Jan, 2023

EnsembleDAgger：一种安全模仿学习的贝叶斯方法

本文提出一种名为 EnsembleDAgger 的算法，其通过使用神经网络集合来近似高斯过程，并以方差作为信心的衡量标准，在最大化学习效果的同时，限制了失败的可能性，从而提高了机器人的安全性能。

Jul, 2018

端到端自主驾驶的高效查询模仿学习

本论文介绍了一种名为 SafeDAgger 的基于 DAgger 算法的自动驾驶智能学习方法，能够有效地减少对参考策略的查询次数，加快收敛速度。

May, 2016

POMDP 中的强健非对称学习

通过使用奖励最大化目标，我们提出了一种高效算法 A2D，共同训练专家和智能体，以帮助智能体模仿一个安全的专家策略，从而优于模仿固定专家所学习的策略。

Dec, 2020

从头学习多模态行为的扩散策略梯度

本研究提出了深度扩散策略梯度（DDiffPG）算法，它能够学习参数化为扩散模型的多模态策略，并通过聚类和内在动机探索来发现和维持多样化行为，同时减少强化学习的贪婪性质，实现了模态之间的均衡改善以及对学习模态的显式控制。经验证明，该算法在复杂的高维连续控制任务中能够掌握多模态行为，并展示了在导航未知障碍迷宫中的动态在线重新规划的概念验证。

Jun, 2024

基于插值的策略扩散行为细化

这篇论文通过使用信息源策略，提出了一种名为 BRIDGER 的方法，在模仿学习任务中优于现有的扩散策略，并在设计方面进行了进一步分析。

Feb, 2024

快速图像合成的改进分布匹配蒸馏

通过引入 DMD2 技术，将 Distribution Matching Distillation 应用于一步图像生成，通过 GAN loss 以及多步采样等技巧的改进，在降低推理成本的情况下，取得了在图像生成任务中新的最优结果。

May, 2024

RLIF：交互仿真学习作为强化学习

通过使用强化学习和用户干预信号本身作为奖励函数，我们提出了一种新的方法来改进交互式模仿学习，克服了潜在次优人类专家的限制，并在挑战性的控制问题中具有较好的性能。

Nov, 2023