Mar, 2023

文本到图像扩散模型是零样本分类器

TL;DR通过使用扩散模型的去噪能力作为代理,将零样本分类器应用于 Imagen,探究其知识方面并与 CLIP 进行比较,结果显示 Imagen 与 CLIP 在零样本图像分类方面表现相当,同时在形状 / 纹理偏差测试方面取得了最先进的结果,能够成功地执行属性绑定,而 CLIP 则不能。因此,我们认为应该探索将生成预训练作为一种有吸引力的视觉和视觉语言问题的替代方法。