Jan, 2024

利用扩散先验将生成模型和判别模型融合为统一的视觉感知模型

TL;DRVermouth是一个简单而有效的框架,由预训练的稳定扩散(SD)模型、能够集成分层表示的统一头部(U-head)和提供鉴别先验的调整专家构成,通过广泛的比较评估,在零样本基于草图的图像检索(ZS-SBIR)、少样本分类和开放词汇语义分割任务上展示了我们方法的效果,展示了扩散模型作为强大学习器的潜力,证明了它们在提供信息丰富和鲁棒的视觉表示方面的重要性。