扩散策略的变分蒸馏成为专家混合模型
本研究提出了一种基于高斯混合模型的概率混合专家策略,以及一种新的用于解决策略不可区分性问题的梯度估计器,成功应用于通用离线策略和在线策略深度强化学习算法,实验结果表明该方法在包括探索在内的多个方面优于单模态策略、其他混合专家策略和选项框架方法,学习出的元素能够区分,具有更好的学习效率和性能。
Apr, 2021
我们提出了一种叫作 Mixture-of-Distilled-Expert(MoDE)的方法,通过在专家之间应用适度的相互蒸馏,使每个专家能够掌握其他专家学习到的更多特征,从而对其原始分配的子任务有更准确的认识。我们进行了大量的实验,包括表格、自然语言处理和计算机视觉数据集,证明了 MoDE 的有效性、普适性和鲁棒性。此外,我们通过创新地构建 “专家探针” 进行了平行研究,实验性地证明了为什么 MoDE 起作用:适度的知识蒸馏可以提高每个单独专家在其所分配任务上的测试性能,从而提升 MoE 的整体性能。
Jan, 2024
我们提出了去噪扩散变分推断(DDVI)算法,它是一种基于扩散模型作为表达性变分后验的潜变量模型的近似推断算法。我们的方法通过辅助潜变量来增强变分后验,从而得到一类表达性模型,通过反转用户指定的噪声过程在潜变量空间中进行扩散。通过优化受 wake-sleep 算法启发的边缘似然的一种新的下界,我们拟合这些模型。我们的方法易于实现(它适用于正则化的 ELBO 进一步扩展),与黑盒变分推断兼容,并且优于基于归一化流或对抗网络的替代近似后验类别。当应用于深层潜变量模型时,我们的方法得到了去噪扩散 VAE(DD-VAE)算法。我们将该算法应用于生物学中的一个激励任务 -- 从人类基因组推断潜在祖先 -- 在 Thousand Genomes 数据集上优于强基线模型。
Jan, 2024
本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标,并提出了一种名为去噪扩散策略优化(DDPO)的类策略梯度算法,并进行了实证及效果验证。
May, 2023
最近的研究表明扩散模型是学习行为克隆中源自示范数据的多模式分布的有效方法,但该方法的缺点在于需要学习一个比学习明确策略更复杂的降噪函数。在本研究中,我们提出了等变扩散策略,这是一种利用域对称性来获得更高样本效率和泛化性能的新型扩散策略学习方法。我们从理论上分析了完整的 6 自由度控制中的 SO (2) 对称性,并表征了扩散模型何时是 SO (2) 等变的。此外,我们在 MimicGen 的一组 12 个仿真任务上对该方法进行了实证评估,并显示其成功率平均比基线扩散策略高出 21.9%。我们还在一个真实系统上对该方法进行了评估,以表明相对较少的训练样本就可以学习到有效的策略,而基线扩散策略则做不到。
Jul, 2024
利用多视角深度,通过 MVDD 扩展扩散模型以生成高质量的 3D 形状,并通过增强视图之间的一致性及深度图对齐来提供卓越的 3D 形状生成和深度完成能力,以及作为下游任务的 3D 先验。
Dec, 2023
我们提出了一种称为 Diffusion Model Variational Inference (DMVI) 的新方法,用于在概率编程语言 (PPLs) 中进行近似推断。DMVI 利用扩散模型作为真实后验分布的变分逼近,通过推导贝叶斯建模中使用的边际似然目标的新的上界。DMVI 实现简单,允许在 PPLs 中进行无麻烦的推断,并且不像使用标准化流进行变分推断那样有任何限制条件。我们对一组常见的贝叶斯模型进行了 DMVI 的评估,并展示其后验推断通常比 PPLs 中的现代方法更准确,同时计算成本相似且需要较少的手动调整。
Nov, 2023
本文中,我们在变分和基于分数的透视下回顾,阐释和统一了扩散模型的理解。我们提出了变分扩散模型(VDM),并证明优化 VDM 归结为学习神经网络来预测原始源输入,原始源噪声或噪声输入的分数函数。最后,我们介绍了如何使用扩散模型通过引导来学习条件分布。
Aug, 2022
通过引入稀疏的、可重用的、灵活的策略 Sparse Diffusion Policy(SDP),在传统模型中解决了多任务学习和持续学习的高计算成本和灾难性遗忘的挑战,SDP 通过采用基于 transformer 的扩散策略中的 experts 和 skills,实现了选择性激活专家和技能,在不重新训练整个模型的情况下实现了高效的任务特定学习,减少了激活参数的负担,并促进了不同任务中专家的无缝集成和重用,通过对多样任务的广泛实验验证了 SDP 在多任务场景中的优越性,防止了对新任务的遗忘,实现了高效的任务转移,为先进的机器人应用提供了有前景的解决方案。
Jul, 2024