Jul, 2024

等变扩散策略

TL;DR最近的研究表明扩散模型是学习行为克隆中源自示范数据的多模式分布的有效方法,但该方法的缺点在于需要学习一个比学习明确策略更复杂的降噪函数。在本研究中,我们提出了等变扩散策略,这是一种利用域对称性来获得更高样本效率和泛化性能的新型扩散策略学习方法。我们从理论上分析了完整的 6 自由度控制中的 SO (2) 对称性,并表征了扩散模型何时是 SO (2) 等变的。此外,我们在 MimicGen 的一组 12 个仿真任务上对该方法进行了实证评估,并显示其成功率平均比基线扩散策略高出 21.9%。我们还在一个真实系统上对该方法进行了评估,以表明相对较少的训练样本就可以学习到有效的策略,而基线扩散策略则做不到。