基于插值的策略扩散行为细化
我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法,利用后者在优化过程中直接规范化行为分布的评分函数,从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案,扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上,同时仍保持着最先进的性能。
Oct, 2023
本研究提出了深度扩散策略梯度(DDiffPG)算法,它能够学习参数化为扩散模型的多模态策略,并通过聚类和内在动机探索来发现和维持多样化行为,同时减少强化学习的贪婪性质,实现了模态之间的均衡改善以及对学习模态的显式控制。经验证明,该算法在复杂的高维连续控制任务中能够掌握多模态行为,并展示了在导航未知障碍迷宫中的动态在线重新规划的概念验证。
Jun, 2024
我们提出了一种使用扩散模型生成基于行为分布的整个轨迹,并通过目标策略引导将合成经验转移到更贴近目标策略的方法,以此代替真实数据进行离线强化学习,并在各种标准离线强化学习算法和环境中取得显著的性能改善。
Apr, 2024
最近的研究表明扩散模型是学习行为克隆中源自示范数据的多模式分布的有效方法,但该方法的缺点在于需要学习一个比学习明确策略更复杂的降噪函数。在本研究中,我们提出了等变扩散策略,这是一种利用域对称性来获得更高样本效率和泛化性能的新型扩散策略学习方法。我们从理论上分析了完整的 6 自由度控制中的 SO (2) 对称性,并表征了扩散模型何时是 SO (2) 等变的。此外,我们在 MimicGen 的一组 12 个仿真任务上对该方法进行了实证评估,并显示其成功率平均比基线扩散策略高出 21.9%。我们还在一个真实系统上对该方法进行了评估,以表明相对较少的训练样本就可以学习到有效的策略,而基线扩散策略则做不到。
Jul, 2024
本文通过扩展动力学模型,利用扩散概率模型去掉了传统轨迹优化方法的瓶颈,将采样和计划步骤近乎完全融合,通过分类器和图像插值获得了在线规划策略,并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。
May, 2022
本文提出了 Crossway Diffusion 方法,在扩展 Diffusion-based policy 学习过程中利用自我监督学习的目标,以提高视觉运动策略学习的效果,并在各种模拟和实际机器人任务中证明了其优势。
Jul, 2023
本研究在于探讨将扩散模型用于观察到行为模型,以模仿人类在连续环境中的行为。研究发现扩散模型可充分学习联合行动空间的表达分布,具有表现力强等优点。实验结果表明,扩散模型能够精确匹配真实人类行为及控制任务等多方环境表现。
Jan, 2023
3D Diffusion Policy (DP3) is a novel visual imitation learning approach that incorporates 3D visual representations to teach robots dexterous skills, demonstrating precise control, high success rates, and excellent generalization abilities, while rarely violating safety requirements in real-world robot learning.
Mar, 2024