逆转 CLIP 模型带给我们什么启示？

Mar, 2024

逆转 CLIP 模型带给我们什么启示？

What do we learn from inverting CLIP models?

Hamid Kazemi, Atoosa Chegini, Jonas Geiping, Soheil Feizi, Tom Goldstein

TL;DR我们使用反演方法研究了 CLIP 模型，发现其反演结果生成的图像与指定的目标提示存在语义对齐。我们利用这些反演图像深入了解了 CLIP 模型的各个方面，如其概念融合能力和性别偏见的包含。我们特别观察到模型反演过程中出现了不安全的图像，即使对于语义无伤的提示（如 “美丽的风景”）或涉及名人的提示。

Abstract

We employ an inversion-based approach to examine clip models. Our examination reveals that inverting clip models results in the generation

clip models inversion-based approach semantic alignment gender biases nsfw images

发现论文，激发创造

CLIP 引导下的 StyleGAN 反演方法用于文本驱动的真实图像编辑

本文提出了一种新的基于文本的图像编辑方法 CLIPInverter，通过在预训练的 GAN 反演网络中集成轻量级文本适配器层，以目标描述的 CLIP 嵌入为条件进行初始反演步骤的条件化，通过使用 CLIP 引导的细化步骤来对结果残留潜在编码进行更正，从而实现了高效稳定地进行多属性更改，因此在各个领域，包括人类脸部，猫和鸟类方面，我们的方法在操作精度和真实度方面均表现优异。

Jul, 2023

评估 CLIP：对更广泛功能和下游影响的表征

本文分析了一种名为 CLIP 的计算机视觉模型，并探讨了其潜在的应用与局限性，其中包括了如何避免模型固有的偏差，以及在模型部署时考虑更广泛的特性，而非单纯关注任务的分类准确度。

Aug, 2021

CLIP 模型暗中是一种图像到提示的转换器

本文提出的方法，可以将图片转化为文本提示，从而解决了基于文本提示生成图片时难以整合隐含信息的问题。此方法可以简单灵活地处理各种任务，如图像变化和图像编辑。

May, 2023

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

DiffusionCLIP: 文本引导下的扩散模型用于稳健的图像处理

该研究提出了一种名为 DiffusionCLIP 的新方法，该方法使用扩散模型进行文本驱动的图像操作，比现有基线表现更为优异，并允许简便的多属性操作。

Oct, 2021

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

从视觉语言模型中学习不变的因果机制

我们提出了 CLIP-ICM（Invariant Causal Mechanism of CLIP）算法，该算法旨在通过干预数据来可靠地识别不变的潜在因素，并在各个领域中实现准确的预测。理论分析表明，我们的方法在分布外（OOD）场景中具有较低的泛化下界，实验结果展示了 CLIP-ICM 的卓越性能。

May, 2024

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

CLIP 模型是一个高效的在线终身学习者

在线终身学习 (OLL) 研究了从连续和非恒定数据流中学习的挑战。通过对视觉 - 语言模型 (如 Contrastive Language-Image Pretraining，CLIP) 进行参数高效调整 (PET) 的在线终身学习方法显示了对图像和文本之间的对称性的重要性，并且引入了 Symmetric Image-Text (SIT) 调整策略。通过梯度分析的实验证明了 SIT 的有效性，此外还评估了终身学习对 CLIP 的泛化能力的影响，并发现调整图像编码器对终身学习有益，而调整文本编码器有助于零样本学习。

May, 2024

深入研究对比语言图像预训练（CLIP）的鲁棒性

该研究全面调查了 Contrastive Language-Image Pre-training (CLIP) 模型的安全目标，特别关注三个关键属性：对视觉因素变化的弹性，校准的不确定性估计以及检测异常输入的能力。研究揭示了 CLIP 模型的一些以前未知的见解，并强调了训练源设计的重要性及其对三个安全相关属性的深远影响。该全面研究有助于引导更加稳健可靠的 CLIP 模型的发展。

Feb, 2024