文本引导扩散图像风格迁移的零样本对比损失
本文介绍了基于文本和图像结合模型的生成分类方法,利用如 Stable Diffusion 的扩展图像扩散模型提供的在不需要额外训练的条件概率密度估计,实现了零样本分类,并证明其能够在多种基准测试上获得强大的结果及优于竞争方法的效果,同时还发现与对比差异对比性方法相比,扩散方法在多模式关系推理方面具有更强的能力,并且即使在弱增强和没有正则化的情况下,基于图像的扩散模型也能取得与训练于同一数据集的 SOTA 判别分类器相近的性能。
Mar, 2023
本文提出了一种基于扩散的非监督图像转换方法,使用分离的风格和内容表征,并使用 ViT 模型中的中间键提取多头自注意层作为内容保存损失,并匹配文本驱动风格转移的 [CLS] 分类令牌,同时使用额外的 CLIP 损失,实验结果表明,该方法在文本引导和图像引导的转换任务中优于现有的基准模型。
Sep, 2022
通过使用扩散模型的去噪能力作为代理,将零样本分类器应用于 Imagen,探究其知识方面并与 CLIP 进行比较,结果显示 Imagen 与 CLIP 在零样本图像分类方面表现相当,同时在形状 / 纹理偏差测试方面取得了最先进的结果,能够成功地执行属性绑定,而 CLIP 则不能。因此,我们认为应该探索将生成预训练作为一种有吸引力的视觉和视觉语言问题的替代方法。
Mar, 2023
通过理论分析和实验,本研究展示了扩散模型在零样式转换的有效性和优越性,并引入了交叉注意力重排策略,使样式信息能够直接提取并无缝集成到内容图像中。
Nov, 2023
利用预训练的生成扩散模型直接应用于视觉定位的零阶视觉定位任务,以图文扩散模型为基础设计了一个全面的区域评分方法,证明了其在零阶视觉定位上的强大性能。
Sep, 2023
本文提出了一种基于大规模文本到图像扩散模型的零样本开放词库分割方法,通过考虑采样的图像的背景来更好地定位对象并直接分割背景,并证明该方法可以在多个基准测试中表现出色,在 Pascal VOC 基准测试上领先了超过 10%。
Jun, 2023
零样本反演过程 (ZIP) 是一个框架,将生成的视觉参考和文本引导注入预训练的去噪扩散模型的语义潜空间中,仅使用一个小型神经网络,ZIP 在文本提示的直观控制下产生多样的内容和属性,并对真实图像上的域内和域外属性操作展现了显著的鲁棒性。与最先进的方法相比,ZIP 在提供逼真的编辑效果的同时,生成了同等质量的图像。
Aug, 2023
使用 CLIP 能够以零样本的方式实现解耦编辑操作,在进行定性和定量对比后,展示了该方法的竞争性结果,为图像和视频编辑提供了一种轻量高效的解耦编辑方法。
Jun, 2024
基于预训练大规模扩散模型的一种新的艺术风格转换方法,通过操作自注意力层的特征作为交叉注意力机制的方式,实现样式的传递和内容的保留,并解决原始内容的破坏和样式颜色不协调的问题,证明在传统和基于扩散的风格转换基准测试中超越了现有方法。
Dec, 2023
使用文本生成图像的方法已显著提高了生成图像建模的状态,通过结合自然语言界面和空间控制,在本文中,我们考虑了与图像画布上特定位置对象相关的文本生成图像的问题,并提出了 ZestGuide,这是一种零 - shot 分割指导方法,可插入预先训练的文本到图像扩散模型中,我们的实验结果表明,在精准对齐所需的输入分割的情况下,与使用相应分割进行训练的组件相比,提高了图像质量,而在 COCO 数据集上,我们的结果比 Paint with Words 更好。
Jun, 2023