Jun, 2023

UniDiff: 利用生成和判别式学习推进视觉 - 语言模型

TL;DR本文提出了一个名为 UniDiff 的多模态模型,它整合了图像 - 文本对比学习(ITC),文本条件的图像合成学习(IS)和双向语义一致性建模(RSC),并通过在来自 CLIP 和扩散模型的视觉特征上利用 RSC 来有效地学习对齐的语义。该模型在视觉语言检索和文本到图像生成方面展示了显着的增强能力,为个性化建模建立了一个强大的流水线,并成为该领域未来比较的基准。