May, 2025

通过扩散时间步反向传播微调扩散策略

TL;DR本研究解决了扩散策略在决策场景下因示范数据的亚最优和有限覆盖而导致的次优轨迹生成问题。提出了NCDPO框架,将扩散策略重新构造为噪声条件的确定性策略,从而实现可追踪的似然评估和梯度反向传播,显著提高了样本效率,并在多种基准测试中显示出优于现有方法的性能表现。