IntervenGen:强化和高效机器人模仿学习的干预数据生成
利用少量人类示范,通过适应它们到新场景的方式,自动合成大规模且丰富的数据集,使机器人代理能够在长期视野和高精度任务中通过模仿学习取得良好的性能,比收集额外的人类示范更有效且经济。
Oct, 2023
本文介绍使用干预性策略学习的方法来解决机器人操作任务中必须经过精确定序的地方的问题,提出一种 6 自由度机器人操作任务的数据采集系统,并开发了一个简单而有效的算法来收集新数据以遍历通过这些难点,使用干预策略学习的代理在机器人的线路穿线任务和制造咖啡任务中的表现优于其他多种基线算法。
Dec, 2020
通过生成仿真系统,RoboGen 是一种生成式机器人代理,可以自动学习各种机器人技能,从而规模化地进行机器人技能学习,减少人类监督。
Nov, 2023
通过使用强化学习和用户干预信号本身作为奖励函数,我们提出了一种新的方法来改进交互式模仿学习,克服了潜在次优人类专家的限制,并在挑战性的控制问题中具有较好的性能。
Nov, 2023
本研究提出了 HG-DAgger 算法,该算法是 DAgger 算法在交互式人机模仿学习方面更为适用的变体,它不仅训练一个初学者策略,还学习了基于模型不确定性的风险度量的安全阈值,以预测状态空间中不同区域的完全训练初学者的性能,在模拟和实际的自动驾驶任务中,HG-DAgger 算法表现出比 DAgger 和行为克隆更好的性能。
Oct, 2018
本文提出了一种基于变分自编码器的策略嵌入方法,相比传统的监督学习方法和生成对抗网络的模仿学习,该方法可以从更少的示范数据中学习到更为鲁棒的控制器,并避免了模式坍塌现象。
Jul, 2017
本文介绍应用生成对抗性模仿学习方法,通过有限的高维仿人体运动演示数据,训练神经网络策略以产生类人的运动模式,并利用该方法构建子技能策略解决高维身体姿态控制任务。
Jul, 2017
本文提出了一种基于增强和干预的多任务学习框架 --ReIL,该框架旨在实现在无需过多监督和调整的情况下,在真实环境中训练代理。实验结果表明,相较于其他基于干预的方法,ReIL 使用任意奖励函数进行训练时无需使用额外启发式方法,能够在稀疏监督信号的情况下快速学习并保持性能。
Mar, 2022
介绍了一种名为 Disentangling Generative Adversarial Imitation Learning(DisentanGAIL)的新算法,可通过对抗学习来自动学习高维度任务表现观察的特征,从而成功进行模仿,同时忽略专家和代理之间的差异,此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。
Mar, 2021
提出了一种新框架 DiffGen,通过集成可微分物理模拟、可微分渲染和视觉 - 语言模型,实现自动和高效的机器人演示生成,通过最小化语言指令的嵌入与模拟观察结果的嵌入之间的距离来完成指定任务,验证实验表明,DiffGen 可以有效地生成机器人数据,并且减少了人力和训练时间的投入。
May, 2024