pOps: 基于照片灵感的扩散算子

Jun, 2024

pOps: Photo-Inspired Diffusion Operators

Elad Richardson, Yuval Alaluf, Ali Mahdavi-Amiri, Daniel Cohen-Or

TL;DR借助文本引导的图像生成，通过 IP-Adapter 等方法利用 CLIP 图像嵌入空间从事面向视觉的任务，但线性操作在此空间内的具体含义在不同图像之间可能变化不可预测，为此，我们引入了 pOps 框架，在 CLIP 图像嵌入上直接训练特定的语义操作符，每个 pOps 操作符都基于预训练的扩散先验模型构建，pOps 不仅提高了我们学习语义操作的能力，还允许我们在需要时直接使用文本 CLIP 损失作为额外的监督，我们展示了 pOps 可以用于学习多种具有不同语义含义的受照片启发的操作符，突显了我们提出方法的语义多样性和潜力。

Abstract

text-guided image generation enables the creation of visual content from textual descriptions. However, certain visual concepts cannot be effectively conveyed through language alone. This has sparked a renewed interest in utilizing the →

text-guided image generation clip image embedding space pops diffusion prior model photo-inspired operators

发现论文，激发创造

使用 CLIP 潜变量的分层文本条件图像生成

提出一个两阶段模型，先用 prior 生成 CLIP 图像嵌入，再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性，并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior，发现后者更加高效且产生的样本更优。

Apr, 2022

DiffusionCLIP: 文本引导下的扩散模型用于稳健的图像处理

该研究提出了一种名为 DiffusionCLIP 的新方法，该方法使用扩散模型进行文本驱动的图像操作，比现有基线表现更为优异，并允许简便的多属性操作。

Oct, 2021

CLIP 模型暗中是一种图像到提示的转换器

本文提出的方法，可以将图片转化为文本提示，从而解决了基于文本提示生成图片时难以整合隐含信息的问题。此方法可以简单灵活地处理各种任务，如图像变化和图像编辑。

May, 2023

CLIP-PAE: 投影增强嵌入以提取相关特征，以实现可分解、可解释和可控的文本引导图像操纵

使用 CLIP Projection-Augmentation Embedding（PAE）作为优化目标，以改善文本引导的图像操作的性能。

Oct, 2022

关于最佳多模态嵌入空间的拓扑视角

通过对 CLIP 和 CLOOB 模型嵌入空间的拓扑数据分析，研究探索了多模态模型发展及其下游性能的关联，揭示了嵌入空间中的细微差异，为进一步改进和推进多模态模型研究提供了基础。

May, 2024

通过稳定扩散进行高度个性化的文本嵌入以进行图像操作

本文介绍一种基于高度个性化文本嵌入的简单而高效的方法，通过分解 CLIP 嵌入空间来实现个性化和内容操作，并且仅需要一个图像和目标文本即可实现背景、纹理和动态的操作和编辑。

Mar, 2023

TexSliders: 基於 CLIP 空間的擴散式紋理編輯

应用扩散技术编辑纹理，通过操作 CLIP 图像嵌入来调节扩散生成，无需标注数据即可用自然语言提示进行编辑。

May, 2024

文本到图像生成模型中的构成问题的理解和减轻

通过研究基于组合性失败模式，我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因，并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进，同时不降低模型的 FID 分数。

Jun, 2024

采用文本到图像扩散模型的开放词汇全景分割

ODISE 通过联合预训练的文本 - 图像推理和判别式模型实现开放式语料库全景分割，其能力高于现有技术水平，并能在 AED20K 数据集上达到 30.0 mIoU 和 23.4 PQ 的表现。

Mar, 2023

基于 Robust CLIP 的检测器用于揭示扩散模型生成的图像

通过使用 CLIP 模型提取的图像和文本特征以及多层感知器（MLP）分类器，本研究引入了一个强大的检测框架，并提出了一种能够改善检测器鲁棒性的新型损失函数，以及在模型训练中平整化损失函数空间从而改善检测器的泛化能力。通过大量实验证明了我们方法的有效性，超越了传统检测技术，在 DM 生成的图像检测领域有望成为新的最先进方法。

Apr, 2024