Jun, 2024

扩散策略的变分蒸馏成为专家混合模型

TL;DRVariational Diffusion Distillation (VDD) 是一种将预训练的扩散模型提取为混合专家模型 (MoE) 的方法,结合了扩散模型的表达能力和混合模型的优势,通过分解性上界的变分目标训练每个专家,从而在复杂行为学习任务中实现了对复杂分布的准确提取,超越了现有的蒸馏方法和传统的 MoE 训练方法。