CLIP 的零射类别视觉分类的内部模态代理学习

Oct, 2023

CLIP 的零射类别视觉分类的内部模态代理学习

Intra-Modal Proxy Learning for Zero-Shot Visual Categorization with CLIP

Qi Qian, Yuanhong Xu, Juhua Hu

TL;DR通过使用文本数据的代理标签帮助直接学习图像数据的代理标签，并利用相应的分析方法进一步提炼这些标签，以改善视觉任务中的零 - shot 分类准确率。

Abstract

vision-language pre-training methods, e.g., CLIP, demonstrate an impressive zero-shot performance on visual categorizations with the class proxy from the text embedding of the class name. However, the

vision-language pre-training zero-shot performance modality gap proxies intra-modal proxy learning

发现论文，激发创造

面向个性化视觉多重聚类的多模态代理学习

给定未标记的目标视觉数据，作者提出了一种名为 Multi-MaP 的新方法，它利用多模态代理学习过程，借助 CLIP 编码器提取一致的文本和图像嵌入，GPT-4 整合用户的兴趣来制定有效的文本上下文，并设计了参考词约束和概念级约束以根据用户的兴趣学习最佳的文本代理。该方法不仅能够通过关键词熟练地捕捉用户的兴趣，而且还有助于识别相关的聚类，实验证明 Multi-MaP 在所有基准多聚类视觉任务中始终优于最先进的方法。

Apr, 2024

Zoom-shot: 快速高效的无监督零样本迁移 CLIP 到视觉编码器的多模态损失

通过 Zoom-shot 方法，利用多模态损失函数将 CLIP 潜空间与预训练视觉编码器的潜空间进行线性映射，从而在粗粒度和细粒度分类数据集上提升了现有的零样本能力，实现了下一代 VLMs 的开发。

Jan, 2024

CLIP 融合模型库专家：视觉增强的伪监督

通过在 CLIP 训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023

MV-CLIP：多视角 CLIP 用于零样本 3D 形状识别

通过视角选择和分层提示的策略，本研究旨在改进预训练模型在零样本三维形状识别中的信心，实现无需额外训练的令人印象深刻的分类准确性。

Nov, 2023

从关联到生成：通过无监督的跨模态映射进行纯文本描述

本文介绍了一种名为 Knight 的基于 K 最近邻跨模态映射的零样本图像和视频描述生成方法，利用文本无监督训练实现了图像和视频描述的最新零样本表现。

Apr, 2023

Proto-CLIP: 视觉 - 语言原型网络在少样本学习中的应用

我们提出了一种利用 CLIP 等大规模视觉语言模型进行少样本学习的新框架 PROT0-CLIP。该框架通过图像原型和文本原型实现少样本学习，并通过对齐相应类别的图像和文本原型来提高分类效果。我们通过在少样本学习的基准数据集上以及在机器人感知领域的实际应用中进行实验证明了我们方法的有效性。

Jul, 2023

CLIP 与优质字幕：强大的视觉任务预训练

简要概述：通过改进图像 - 文本数据集中标题的质量，有助于改善 CLIP 模型的视觉表示质量，并在密集预测视觉任务中取得显著的性能提升。

May, 2024

Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

本文介绍了一种多模态提示学习方案，该方案在单一统一的训练下平衡了监督和零样本学习的表现，并提出了视觉和文本方面的提示方案，通过保持预训练的骨干网络冻结，在保留现有的通用表示的同时实现了最先进的零样本效果。

Apr, 2023

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

理解 CLIP 中的可迁移表征学习和零射击迁移

通过对 CLIP 的理论研究，我们证明了多模态学习的可转移表示学习，并分析了其在零样本学习和下游任务中的性能。在此基础上，我们提出了一种新的 CLIP 类型方法，在基准数据集上实现了比 CLIP 和其他最先进方法更好的性能。

Oct, 2023