无 Token 留存：可解释性辅助的图像分类与生成

Apr, 2022

无 Token 留存：可解释性辅助的图像分类与生成

No Token Left Behind: Explainability-Aided Image Classification and Generation

Roni Paiss, Hila Chefer, Lior Wolf

TL;DR本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题，此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分，并且可以提高图像识别率和生成图像的质量。同时，研究还展示了 CLIP 在一次性分类、对生成模型进行指导和有空间条件的基于文本的图像生成方面的新型应用。

Abstract

The application of zero-shot learning in computer vision has been revolutionized by the use of image-text matching models. The most notable example, →

zero-shot learning image-text matching models clip explainability-based approach text-based image generation

发现论文，激发创造

多样化和个性化的图像生成用于零 - shot 多标签分类

通过生成合成数据，用于训练未见标签的分类器，本文介绍了一种用于零样本多标签分类的创新解决方案，包括使用大型语言模型生成多样的提示，使用 CLIP 模型进行图像筛选，以及使用特征融合模块来提高目标任务的视觉特征。实验结果验证了该方法的有效性，并显示出与现有方法相比的显著改进。

Apr, 2024

检索增强型零样本视频字幕生成

该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

May, 2024

皮肤科人工智能中零样本概念生成的数据对齐

人类语义相关且医学领域精确的元标签在皮肤病学中的 AI 分类模型培训中十分稀缺，CLIP 模型可通过利用互联网上的大量图像 - 标题对进行零样本学习以解决数据缺乏的问题，并可以通过使用领域特定的图像 - 标题对对其进行微调来提高分类性能。

Apr, 2024

理解 CLIP 中的可迁移表征学习和零射击迁移

通过对 CLIP 的理论研究，我们证明了多模态学习的可转移表示学习，并分析了其在零样本学习和下游任务中的性能。在此基础上，我们提出了一种新的 CLIP 类型方法，在基准数据集上实现了比 CLIP 和其他最先进方法更好的性能。

Oct, 2023

使用 CLIP 的随机词数据增强技术进行零样本异常检测

提出了一种利用视觉 - 语言模型 CLIP 作为零样本异常检测的数据源的新方法，通过在滑动窗口方式下对图像的每个部分应用提示引导分类，通过生成文本嵌入来训练前馈神经网络，从 CLIP 的嵌入中提取正常和异常特征，实现了无需训练图像的无类别异类检测，取得了零样本设置下的最新性能。

Aug, 2023

ZegCLIP：面向零样本语义分割的 CLIP 自适应

本文提出了一种基于 CLIP 的零样本语义分割方法 ZegCLIP，将其从图像级别扩展到像素级别，通过三种简单而有效的设计处理过拟合问题，具有更好的泛化能力和速度优势。

Dec, 2022

ChatGPT 辅助的可解释零样本医学图像诊断框架

该研究提出了一种基于 CLIP 和 ChatGPT 的零样本医学图像分类框架，使用大型语言模型自动生成额外的线索和知识以进行更准确和可解释的诊断，展示了 VLM 和 LLM 在医疗应用中的巨大潜力。

Jul, 2023

通过引导裁剪实现零样本视觉分类

我们提出了 GC-CLIP，通过在预处理步骤中使用现成的零样本目标检测模型，增加零样本分类器对感兴趣目标的关注，并减少无关图像区域的影响，从而提高了零样本分类结果。

Sep, 2023

ECO: 基于集成上下文优化的视觉语言模型

通过学习图像分类的一系列提示信息，我们证明了与仅仅依赖一个可训练提示相比，学习多样和可能更短的上下文能够在推理时间不增加额外成本的情况下显著和一致地提高结果，在 11 个不同基准测试中显示了我们方法的能力。

Jul, 2023

AutoCLIP：为视觉 - 语言模型自动调优的零样本分类器

AutoCLIP 是一种自动调整零样本分类器的方法，通过根据推理时间的类描述符 - 图像相似性统计导出每个图像的每个提示模板的权重，并展示在广泛的视觉语言模型、数据集和提示模板中，AutoCLIP 始终稳定地优于基线，并提高了多达 3 百分点的准确性。

Sep, 2023