终止令牌的奇怪案件：使用 CLIP 进行零射击解缠图像编辑

Jun, 2024

终止令牌的奇怪案件：使用 CLIP 进行零射击解缠图像编辑

The Curious Case of End Token: A Zero-Shot Disentangled Image Editing using CLIP

Hidir Yesiltepe, Yusuf Dalva, Pinar Yanardag

TL;DR使用 CLIP 能够以零样本的方式实现解耦编辑操作，在进行定性和定量对比后，展示了该方法的竞争性结果，为图像和视频编辑提供了一种轻量高效的解耦编辑方法。

Abstract

diffusion models have become prominent in creating high-quality images. However, unlike gan models celebrated for their ability to edit images in a disentangled manner, diffusion-based text-to-image models strugg

diffusion models gan models attribute manipulation clip disentangled editing

发现论文，激发创造

DiffusionCLIP: 文本引导下的扩散模型用于稳健的图像处理

该研究提出了一种名为 DiffusionCLIP 的新方法，该方法使用扩散模型进行文本驱动的图像操作，比现有基线表现更为优异，并允许简便的多属性操作。

Oct, 2021

文本到图像扩散模型是零样本分类器

通过使用扩散模型的去噪能力作为代理，将零样本分类器应用于 Imagen，探究其知识方面并与 CLIP 进行比较，结果显示 Imagen 与 CLIP 在零样本图像分类方面表现相当，同时在形状 / 纹理偏差测试方面取得了最先进的结果，能够成功地执行属性绑定，而 CLIP 则不能。因此，我们认为应该探索将生成预训练作为一种有吸引力的视觉和视觉语言问题的替代方法。

Mar, 2023

基于扩散模型的图像属性编辑的零样本反演过程

零样本反演过程 (ZIP) 是一个框架，将生成的视觉参考和文本引导注入预训练的去噪扩散模型的语义潜空间中，仅使用一个小型神经网络，ZIP 在文本提示的直观控制下产生多样的内容和属性，并对真实图像上的域内和域外属性操作展现了显著的鲁棒性。与最先进的方法相比，ZIP 在提供逼真的编辑效果的同时，生成了同等质量的图像。

Aug, 2023

扩散模型其实是一个零样本分类器

本文介绍了基于文本和图像结合模型的生成分类方法，利用如 Stable Diffusion 的扩展图像扩散模型提供的在不需要额外训练的条件概率密度估计，实现了零样本分类，并证明其能够在多种基准测试上获得强大的结果及优于竞争方法的效果，同时还发现与对比差异对比性方法相比，扩散方法在多模式关系推理方面具有更强的能力，并且即使在弱增强和没有正则化的情况下，基于图像的扩散模型也能取得与训练于同一数据集的 SOTA 判别分类器相近的性能。

Mar, 2023

文本引导扩散图像风格迁移的零样本对比损失

本文提出了一种零样式迁移的扩散模型，该零样式迁移使用零额外训练或辅助网络的对比损失来处理内容保留问题，并在图像样式转换和图像到图像翻译中取得了优于现有方法的效果。

Mar, 2023

在文本图像生成模型中定位和编辑知识

文本到图像扩散模型研究了知识表示和视觉特征，采用因果中介分析方法来理解大规模文本到图像扩散模型中不同视觉属性相关的知识是如何存储的，并发现在条件 UNet 的一组组件中分布着不同属性的知识。同时，发现在公共文本到图像模型中，只存在一个因果状态，这在其他语言模型中是不同的。基于这种观察，引入了一种快速、无需数据的模型编辑方法 Diff-QuickFix，可以在短时间内编辑（删除）模型中的概念，提供了 1000 倍的加速和与现有微调方法相当的编辑性能。

Oct, 2023

无 Token 留存：可解释性辅助的图像分类与生成

本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题，此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分，并且可以提高图像识别率和生成图像的质量。同时，研究还展示了 CLIP 在一次性分类、对生成模型进行指导和有空间条件的基于文本的图像生成方面的新型应用。

Apr, 2022

使用合成数据进行零样本蒸馏的图像编码器：如何有效利用

利用图像特征为基础的 L2 蒸馏损失，我们训练出的学生模型在四个特定领域数据集上实现了与在 DataCompXL 上训练的 ViT-B/32 教师模型相当的零样本性能，同时参数减少了高达 92%。

Apr, 2024

VGDiffZero: 文本到图像扩散模型可以进行零射击视觉定位

利用预训练的生成扩散模型直接应用于视觉定位的零阶视觉定位任务，以图文扩散模型为基础设计了一个全面的区域评分方法，证明了其在零阶视觉定位上的强大性能。

Sep, 2023

使用扩散模型从纯文本故事生成连贯的故事书的零射生成

本文提出了一种基于文本的神经管道，利用预训练的语言模型和文本引导的潜在扩散模型来生成一系列连贯的图像，实现连贯的故事书生成，并展示了无需昂贵的图像 - 标题对训练的文本转换技术的性能表现。

Feb, 2023