Feb, 2024

AdaFlow:具有方差自适应流动策略的模仿学习

TL;DR基于扩散的模仿学习改善多模态决策制定,但由于扩散过程中的递归导致推理速度显著降低,迫使我们设计高效的策略生成器,同时保持生成多样化动作的能力。为了解决这一挑战,我们提出了 AdaFlow,一种基于流式生成建模的模仿学习框架。AdaFlow 使用以状态为条件的常微分方程(ODEs)来表示策略,这些方程被称为概率流。我们揭示了它们的训练损失的条件方差与 ODEs 的离散误差之间的有趣关联。借此洞察,我们提出了一种方差自适应 ODE 求解器,能够在推理阶段调整其步长,使 AdaFlow 成为一种自适应决策制定者,提供快速推理而不牺牲多样性。有趣的是,当动作分布是单峰时,它自动降级为单步生成器。我们全面的实证评估表明,AdaFlow 在包括成功率、行为多样性和推理速度在内的所有维度上都能达到高性能。代码可在此 https URL 获取。