ICCVAug, 2023

DiffDis:将生成式扩散模型赋能跨模态辨别能力

TL;DR在这篇论文中,我们提出了 DiffDis,通过扩展扩散过程,将跨模态生成和辨别预训练统一到一个框架中。DiffDis 通过融合噪声文本嵌入和来自不同尺度的潜在图像的知识,提出了一种新颖的双流网络架构,来解决图像 - 文本辨别任务。通过基于扩散的统一训练,DiffDis 在一种体系结构中实现了更好的生成能力和跨模态语义对齐。实验结果表明,DiffDis 在图像生成和图像 - 文本辨别任务上优于单一任务模型,例如在 12 个数据集上的零样本分类的平均准确性提高了 1.65%,在零样本图像合成的 FID 上提高了 2.42 个点。