该研究提出了一种名为 DiffusionCLIP 的新方法,该方法使用扩散模型进行文本驱动的图像操作,比现有基线表现更为优异,并允许简便的多属性操作。
Oct, 2021
通过使用扩散模型的去噪能力作为代理,将零样本分类器应用于 Imagen,探究其知识方面并与 CLIP 进行比较,结果显示 Imagen 与 CLIP 在零样本图像分类方面表现相当,同时在形状 / 纹理偏差测试方面取得了最先进的结果,能够成功地执行属性绑定,而 CLIP 则不能。因此,我们认为应该探索将生成预训练作为一种有吸引力的视觉和视觉语言问题的替代方法。
Mar, 2023
零样本反演过程 (ZIP) 是一个框架,将生成的视觉参考和文本引导注入预训练的去噪扩散模型的语义潜空间中,仅使用一个小型神经网络,ZIP 在文本提示的直观控制下产生多样的内容和属性,并对真实图像上的域内和域外属性操作展现了显著的鲁棒性。与最先进的方法相比,ZIP 在提供逼真的编辑效果的同时,生成了同等质量的图像。
Aug, 2023
本文介绍了基于文本和图像结合模型的生成分类方法,利用如 Stable Diffusion 的扩展图像扩散模型提供的在不需要额外训练的条件概率密度估计,实现了零样本分类,并证明其能够在多种基准测试上获得强大的结果及优于竞争方法的效果,同时还发现与对比差异对比性方法相比,扩散方法在多模式关系推理方面具有更强的能力,并且即使在弱增强和没有正则化的情况下,基于图像的扩散模型也能取得与训练于同一数据集的 SOTA 判别分类器相近的性能。
本文提出了一种零样式迁移的扩散模型,该零样式迁移使用零额外训练或辅助网络的对比损失来处理内容保留问题,并在图像样式转换和图像到图像翻译中取得了优于现有方法的效果。
文本到图像扩散模型研究了知识表示和视觉特征,采用因果中介分析方法来理解大规模文本到图像扩散模型中不同视觉属性相关的知识是如何存储的,并发现在条件 UNet 的一组组件中分布着不同属性的知识。同时,发现在公共文本到图像模型中,只存在一个因果状态,这在其他语言模型中是不同的。基于这种观察,引入了一种快速、无需数据的模型编辑方法 Diff-QuickFix,可以在短时间内编辑(删除)模型中的概念,提供了 1000 倍的加速和与现有微调方法相当的编辑性能。
Oct, 2023
本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题,此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分,并且可以提高图像识别率和生成图像的质量。同时,研究还展示了 CLIP 在一次性分类、对生成模型进行指导和有空间条件的基于文本的图像生成方面的新型应用。
Apr, 2022
利用图像特征为基础的 L2 蒸馏损失,我们训练出的学生模型在四个特定领域数据集上实现了与在 DataCompXL 上训练的 ViT-B/32 教师模型相当的零样本性能,同时参数减少了高达 92%。
Apr, 2024
利用预训练的生成扩散模型直接应用于视觉定位的零阶视觉定位任务,以图文扩散模型为基础设计了一个全面的区域评分方法,证明了其在零阶视觉定位上的强大性能。
Sep, 2023
本文提出了一种基于文本的神经管道,利用预训练的语言模型和文本引导的潜在扩散模型来生成一系列连贯的图像,实现连贯的故事书生成,并展示了无需昂贵的图像 - 标题对训练的文本转换技术的性能表现。
Feb, 2023