CLIP 的零射类别视觉分类的内部模态代理学习
给定未标记的目标视觉数据,作者提出了一种名为 Multi-MaP 的新方法,它利用多模态代理学习过程,借助 CLIP 编码器提取一致的文本和图像嵌入,GPT-4 整合用户的兴趣来制定有效的文本上下文,并设计了参考词约束和概念级约束以根据用户的兴趣学习最佳的文本代理。该方法不仅能够通过关键词熟练地捕捉用户的兴趣,而且还有助于识别相关的聚类,实验证明 Multi-MaP 在所有基准多聚类视觉任务中始终优于最先进的方法。
Apr, 2024
通过 Zoom-shot 方法,利用多模态损失函数将 CLIP 潜空间与预训练视觉编码器的潜空间进行线性映射,从而在粗粒度和细粒度分类数据集上提升了现有的零样本能力,实现了下一代 VLMs 的开发。
Jan, 2024
通过在 CLIP 训练中结合任务特定的视觉模型,利用伪标签来改进其视觉表示,该简单的设置在不妨碍现有性能的前提下,显著提高了不同视觉任务的效果。
Oct, 2023
通过视角选择和分层提示的策略,本研究旨在改进预训练模型在零样本三维形状识别中的信心,实现无需额外训练的令人印象深刻的分类准确性。
Nov, 2023
本文介绍了一种名为 Knight 的基于 K 最近邻跨模态映射的零样本图像和视频描述生成方法,利用文本无监督训练实现了图像和视频描述的最新零样本表现。
Apr, 2023
我们提出了一种利用 CLIP 等大规模视觉语言模型进行少样本学习的新框架 PROT0-CLIP。该框架通过图像原型和文本原型实现少样本学习,并通过对齐相应类别的图像和文本原型来提高分类效果。我们通过在少样本学习的基准数据集上以及在机器人感知领域的实际应用中进行实验证明了我们方法的有效性。
Jul, 2023
本文介绍了一种多模态提示学习方案,该方案在单一统一的训练下平衡了监督和零样本学习的表现,并提出了视觉和文本方面的提示方案,通过保持预训练的骨干网络冻结,在保留现有的通用表示的同时实现了最先进的零样本效果。
Apr, 2023
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
Dec, 2023
通过对 CLIP 的理论研究,我们证明了多模态学习的可转移表示学习,并分析了其在零样本学习和下游任务中的性能。在此基础上,我们提出了一种新的 CLIP 类型方法,在基准数据集上实现了比 CLIP 和其他最先进方法更好的性能。
Oct, 2023