ThriftyDAgger: 交互式模仿学习中的预算感知新颖性和风险控制

Sep, 2021

ThriftyDAgger: 交互式模仿学习中的预算感知新颖性和风险控制

ThriftyDAgger: Budget-Aware Novelty and Risk Gating for Interactive Imitation Learning

Ryan Hoque, Ashwin Balakrishna, Ellen Novoseller, Albert Wilcox, Daniel S. Brown...

TL;DR本文介绍了 ThriftyDAgger 算法，针对需要在线人工反馈和干预的机器人学习问题，提出了在规定的干预预算内主动询问人类监管者的方法，并通过实验发现其干预策略更加有效平衡了任务表现和监管者负担，同时提高了人和机器人的性能。

Abstract

Effective robot learning often requires online human feedback and interventions that can cost significant human time, giving rise to the c

interactive imitation learning human feedback robot learning interventions supervisor burden

发现论文，激发创造

LazyDAgger: 降低交互式模仿学习中的上下文切换

LazyDAgger 是一种互动式的模仿学习算法，通过减少监督员和自主控制之间的上下文切换次数，提高了学习和执行过程中所学策略的性能和鲁棒性，且在限制监督员负担的同时，能够在 3 个连续控制任务中平均减少 60％的上下文切换，并在 ABB YuMi 机器人的物理织物操作实验中成功率比 SafeDAgger 高 60％。

Mar, 2021

HG-DAgger：人机交互式模仿学习

本研究提出了 HG-DAgger 算法，该算法是 DAgger 算法在交互式人机模仿学习方面更为适用的变体，它不仅训练一个初学者策略，还学习了基于模型不确定性的风险度量的安全阈值，以预测状态空间中不同区域的完全训练初学者的性能，在模拟和实际的自动驾驶任务中，HG-DAgger 算法表现出比 DAgger 和行为克隆更好的性能。

Oct, 2018

DropoutDAgger: 一种安全模仿学习的贝叶斯方法

本文提出了一种基于概率 DAgger 的算法，使用了 dropout 训练新手并提供其置信度，通过新手行为分布估计与专家行为相关的安全的概率度量，以平衡探索和利用，在 MuJoCo HalfCheetah 和简单的驾驶实验中证明了与其他 DAgger 变体和经典模仿学习相比的性能和安全性的提高。

Sep, 2017

Fleet-DAgger：可扩展的人机交互机器人舰队学习

研究了交互式机群学习 (IFL) 中有限人力资源的有效分配问题，提出了一种新的度量 ROHE 以及一种 IFL 算法家族 Fleet-DAgger，并通过实验验证了该算法可以在人力资源有限的情况下实现更高的 ROHE。

Jun, 2022

EnsembleDAgger：一种安全模仿学习的贝叶斯方法

本文提出一种名为 EnsembleDAgger 的算法，其通过使用神经网络集合来近似高斯过程，并以方差作为信心的衡量标准，在最大化学习效果的同时，限制了失败的可能性，从而提高了机器人的安全性能。

Jul, 2018

DART：注入噪声以实现鲁棒性模仿学习

提出了一种注入噪音的离策略方法，在演示时将噪音注入到导师的策略中，强制演示如何从错误中恢复。通过 DART 算法在仿真和实验中的比较，证明了该方法的有效性。

Mar, 2017

RLIF：交互仿真学习作为强化学习

通过使用强化学习和用户干预信号本身作为奖励函数，我们提出了一种新的方法来改进交互式模仿学习，克服了潜在次优人类专家的限制，并在挑战性的控制问题中具有较好的性能。

Nov, 2023

端到端自主驾驶的高效查询模仿学习

本论文介绍了一种名为 SafeDAgger 的基于 DAgger 算法的自动驾驶智能学习方法，能够有效地减少对参考策略的查询次数，加快收敛速度。

May, 2016

通过对粗略局部演示进行对抗性模仿来学习敏捷技能

提出一种基于生成对抗学习的方法，通过从部分不兼容的演示中推断奖励函数，实现成功的技能获取，并在四足机器人上测试了后空翻等技能。

Jun, 2022

IntervenGen：强化和高效机器人模仿学习的干预数据生成

通过 IntervenGen (I-Gen) 数据生成系统，只需借助少数人工干预，便能自主生成大量具有状态空间丰富覆盖的纠正干预数据，从而将策略的鲁棒性提高多达 39 倍。

May, 2024