TEDi 策略:时域纠缠扩散用于机器人控制
我们提出了一种将渐进扩散概念(沿着扩散时间轴操作)扩展到运动序列的方法,用于支持时变去噪,从而将两个轴相互纠缠,通过迭代去噪逐渐增加噪声位移的动作缓冲区,并产生任意长的帧流,为长期运动合成提供了新的框架。
Jul, 2023
3D Diffusion Policy (DP3) is a novel visual imitation learning approach that incorporates 3D visual representations to teach robots dexterous skills, demonstrating precise control, high success rates, and excellent generalization abilities, while rarely violating safety requirements in real-world robot learning.
Mar, 2024
最近的研究表明扩散模型是学习行为克隆中源自示范数据的多模式分布的有效方法,但该方法的缺点在于需要学习一个比学习明确策略更复杂的降噪函数。在本研究中,我们提出了等变扩散策略,这是一种利用域对称性来获得更高样本效率和泛化性能的新型扩散策略学习方法。我们从理论上分析了完整的 6 自由度控制中的 SO (2) 对称性,并表征了扩散模型何时是 SO (2) 等变的。此外,我们在 MimicGen 的一组 12 个仿真任务上对该方法进行了实证评估,并显示其成功率平均比基线扩散策略高出 21.9%。我们还在一个真实系统上对该方法进行了评估,以表明相对较少的训练样本就可以学习到有效的策略,而基线扩散策略则做不到。
Jul, 2024
本文通过扩展动力学模型,利用扩散概率模型去掉了传统轨迹优化方法的瓶颈,将采样和计划步骤近乎完全融合,通过分类器和图像插值获得了在线规划策略,并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。
May, 2022
学习轨迹分布的先验信息可以帮助加速机器人运动规划优化,本工作提出了学习扩散模型作为先验信息的方法,并通过扩散模型的逆去噪过程在任务目标条件下直接从后验轨迹分布中进行采样,实验证明扩散模型是编码高维机器人运动轨迹分布的强先验。
Aug, 2023
通过引入稀疏的、可重用的、灵活的策略 Sparse Diffusion Policy(SDP),在传统模型中解决了多任务学习和持续学习的高计算成本和灾难性遗忘的挑战,SDP 通过采用基于 transformer 的扩散策略中的 experts 和 skills,实现了选择性激活专家和技能,在不重新训练整个模型的情况下实现了高效的任务特定学习,减少了激活参数的负担,并促进了不同任务中专家的无缝集成和重用,通过对多样任务的广泛实验验证了 SDP 在多任务场景中的优越性,防止了对新任务的遗忘,实现了高效的任务转移,为先进的机器人应用提供了有前景的解决方案。
Jul, 2024
我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法,利用后者在优化过程中直接规范化行为分布的评分函数,从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案,扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上,同时仍保持着最先进的性能。
Oct, 2023
通过引入时间分离(TED)作为强化学习辅助任务,可以更好地利用序列化 RL 观察结果,学习更健壮的表示形式,从而使 RL 算法对未知环境变量的变化更快地适应。
Jul, 2022