DiffusionCLIP: 文本引导下的扩散模型用于稳健的图像处理
提出了 TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合,能够生成高达 1024×1024 分辨率的图像,并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。
Sep, 2023
本文提出了一种新的基于文本的图像编辑方法 CLIPInverter,通过在预训练的 GAN 反演网络中集成轻量级文本适配器层,以目标描述的 CLIP 嵌入为条件进行初始反演步骤的条件化,通过使用 CLIP 引导的细化步骤来对结果残留潜在编码进行更正,从而实现了高效稳定地进行多属性更改,因此在各个领域,包括人类脸部,猫和鸟类方面,我们的方法在操作精度和真实度方面均表现优异。
Jul, 2023
本研究探讨了扩散模型在文本条件下生成图像的问题,并比较了不同的指导策略:CLIP 指导和无分类器指导。 结果发现对于照片逼真度和字幕相似性,后者更受人类评估人员的青睐,还可以进行图像修复。
Dec, 2021
使用 CLIP 能够以零样本的方式实现解耦编辑操作,在进行定性和定量对比后,展示了该方法的竞争性结果,为图像和视频编辑提供了一种轻量高效的解耦编辑方法。
Jun, 2024
通过使用 CLIP 模型提取的图像和文本特征以及多层感知器(MLP)分类器,本研究引入了一个强大的检测框架,并提出了一种能够改善检测器鲁棒性的新型损失函数,以及在模型训练中平整化损失函数空间从而改善检测器的泛化能力。通过大量实验证明了我们方法的有效性,超越了传统检测技术,在 DM 生成的图像检测领域有望成为新的最先进方法。
Apr, 2024
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021
使用 CLIP 模型作为生成对抗网络中的鉴别器和生成器,我们提出 Generative Adversarial CLIPs(GALIP),以实现高质量、高效、快速且可控的文本到图像合成,同时减少训练数据和可学习参数。
Jan, 2023
本文提出了利用预训练的 CLIP 模型来实现多模态文本 - 图像表示和强大的图像生成能力的 CLIP-VQDiffusion 模型,在 FFHQ 数据集上,该模型的 Clipscore 得分超过了之前最先进的方法 4.4%,并且即使在分布内外的情况下,生成的图像也非常逼真。
Mar, 2024
引入了一种新的方法,可以从预训练的 CLIP 和 StyleGAN 中高效创建文本到图像模型,无需外部数据或微调。通过训练一个基于 CLIP 嵌入的扩散模型以对预先训练的 StyleGAN 的潜在向量进行采样,我们称之为 clip2latent,利用 CLIP 图像和文本嵌入之间的对齐来避免需要任何文本标记数据来训练条件扩散模型。展示了 clip2latent 使我们能够根据文本提示生成高分辨率(1024x1024 像素)的图像,并具有快速采样,高图像质量和低训练计算和数据要求。还展示了使用经过充分研究的 StyleGAN 架构,无需进一步微调,就可以直接应用现有方法来控制和修改生成的图像,为我们的文本到图像流水线添加了进一步的控制层面。
Oct, 2022
零样本反演过程 (ZIP) 是一个框架,将生成的视觉参考和文本引导注入预训练的去噪扩散模型的语义潜空间中,仅使用一个小型神经网络,ZIP 在文本提示的直观控制下产生多样的内容和属性,并对真实图像上的域内和域外属性操作展现了显著的鲁棒性。与最先进的方法相比,ZIP 在提供逼真的编辑效果的同时,生成了同等质量的图像。
Aug, 2023