通过引导裁剪实现零样本视觉分类

Sep, 2023

通过引导裁剪实现零样本视觉分类

Zero-Shot Visual Classification with Guided Cropping

Piyapat Saranrittichai, Mauricio Munoz, Volker Fischer, Chaithanya Kumar Mummadi

TL;DR我们提出了 GC-CLIP，通过在预处理步骤中使用现成的零样本目标检测模型，增加零样本分类器对感兴趣目标的关注，并减少无关图像区域的影响，从而提高了零样本分类结果。

Abstract

pretrained vision-language models, such as clip, show promising zero-shot performance across a wide variety of datasets. For closed-set classification tasks, however, there is an inherent limitation:

pretrained vision-language models clip zero-shot performance gc-clip object detection

发现论文，激发创造

Cascade-CLIP: 零样本语义分割的级联视觉 - 语言嵌入对齐

基于预训练视觉 - 语言模型的 Cascade-CLIP 方法，在零样本语义分割任务中通过引入一系列独立解码器，以级联方式将多层次的视觉特征与文本嵌入对齐，取得了优秀的性能。

Jun, 2024

无 Token 留存：可解释性辅助的图像分类与生成

本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题，此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分，并且可以提高图像识别率和生成图像的质量。同时，研究还展示了 CLIP 在一次性分类、对生成模型进行指导和有空间条件的基于文本的图像生成方面的新型应用。

Apr, 2022

MV-CLIP：多视角 CLIP 用于零样本 3D 形状识别

通过视角选择和分层提示的策略，本研究旨在改进预训练模型在零样本三维形状识别中的信心，实现无需额外训练的令人印象深刻的分类准确性。

Nov, 2023

CLIP 融合模型库专家：视觉增强的伪监督

通过在 CLIP 训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023

CLIP 模型是少样本学习器：基于 VQA 和视觉蕴涵的实证研究

本文实证表明，CLIP 通过利用语言的能力可以成为强大的视觉 - 语言少样本学习器。我们评估了 CLIP 在典型的视觉问答任务和视觉蕴含任务的零样本性能，并提出了一种参数有效的微调策略，以提高少样本性能，最终取得了有竞争力的零样本 /few-shot 结果。

Mar, 2022

RegionCLIP: 基于区域的语言 - 图像预训练

RegionCLIP 是一种新的方法，扩展了 CLIP 模型的范围，使其可以学习区域级别的视觉表征，从而实现图像区域和文本概念之间的细粒度对齐，进而在目标检测领域表现出良好的性能。

Dec, 2021

AutoCLIP：为视觉 - 语言模型自动调优的零样本分类器

AutoCLIP 是一种自动调整零样本分类器的方法，通过根据推理时间的类描述符 - 图像相似性统计导出每个图像的每个提示模板的权重，并展示在广泛的视觉语言模型、数据集和提示模板中，AutoCLIP 始终稳定地优于基线，并提高了多达 3 百分点的准确性。

Sep, 2023

CLIP-GCD: 简单的语言指导通用类别发现

本文通过引入多模态模型 (CLIP)，提出了一种基于文本检索的机制，通过挖掘带标签和无标签文本库中的文本描述来实现联合图像 + 文本半监督聚类，该方法在多个数据集上得到了最优结果。

May, 2023

将 CLIP 的知识转化为零样本点云语义分割

本文提出了一种简单而有效的基线方法，将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器，从而在零样本点云语义分割中取得了显著的性能提升，并在无标注点云语义分割设置中取得了有希望的结果，展示了其在标签效率学习方面的巨大潜力。

Dec, 2023

更多上下文，少了干扰：基于推断和调节上下文属性的视觉分类

基于对人类视觉知觉过程的启示，本文提出了一种基于上下文属性的训练无需的两步式零样本分类方法 PerceptionCLIP，并通过实验证明其在泛化性能、群体鲁棒性和可解释性方面具有优势。

Aug, 2023