RetailKLIP：使用单个 GPU 基于度量学习对 OpenCLIP 主干进行微调，实现零样本的零售产品图像分类

Dec, 2023

RetailKLIP：使用单个 GPU 基于度量学习对 OpenCLIP 主干进行微调，实现零样本的零售产品图像分类

RetailKLIP : Finetuning OpenCLIP backbone using metric learning on a single GPU for Zero-shot retail product image classification

PDF

Muktabh Mayank Srivastava

TL;DR该研究主要探索如何用最近邻分类的方法对零售产品或打包食品进行图像分类，并使用 CLIP 模型的视觉编码器进行微调以实现准确性与完全微调相当甚至超过完全微调的结果，从而节省资源和等待时间。

Abstract

retail product or packaged grocery goods images need to classified in various computer vision applications like self checkout stores, supp

retail product packaged grocery goods computer vision clip model nearest neighbor based classification

发现论文，激发创造

基于贝叶斯的预训练模型在低 - shot 图像分类中的探索

基于高斯过程的概率模型集成框架，通过结合 CLIP 和基于各种预训练模型构建的深度核函数集成，实现了先验知识的整合，并在标准基准上通过广泛实验证明了我们方法在预测性能方面始终优于竞争方法。

Mar, 2024

FashionCLIP: 连接语言与图像的产品展示

该论文介绍了一种基于对比学习的 FashionCLIP 模型，可用于时尚产业中的检索、分类和定位任务，旨在为在线购物提供更加可迁移的产品表示方法。

Apr, 2022

基于 CLIP 的交互式图像检索中的相关性反馈再审

通过集成 CLIP 与经典的相关反馈技术以增强图像检索，我们提出了一种交互式基于 CLIP 的图像检索系统，并利用相关反馈收集用户独特的偏好，从而适应不同用户的偏好并实现高准确性的图像检索。

Apr, 2024

通过引导裁剪实现零样本视觉分类

我们提出了 GC-CLIP，通过在预处理步骤中使用现成的零样本目标检测模型，增加零样本分类器对感兴趣目标的关注，并减少无关图像区域的影响，从而提高了零样本分类结果。

Sep, 2023

RECLIP: 使用小尺寸图片训练的资源高效 CLIP

本文介绍了一种名为 RECLIP 的方法，其最小化了用于 Contrastive Language Image Pretraining 的计算资源，实现了高效的语言监督预训练。该方法利用小图像高效地学习大规模语言监督，并在最后使用高分辨率数据进行微调，以降低训练资源要求，并展示了与现有方法相比极具竞争力的指标表现。

Apr, 2023

CLIP 是否是细粒度开放世界感知的主要障碍？

现代应用越来越需要适应训练过程中未遇到的新概念的灵活计算机视觉模型。本文通过对开放词汇物体识别限制的详细研究，发现了这些限制的根本原因，并试图理解是否存在于 CLIP 嵌入中的细粒度知识未能在推断时利用。我们的初步实验表明，简单的 CLIP 潜空间重新投影有助于分离细粒度概念，为开发能够处理细节的骨干网络铺平了道路。

Apr, 2024

将 CLIP 的知识转化为零样本点云语义分割

本文提出了一种简单而有效的基线方法，将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器，从而在零样本点云语义分割中取得了显著的性能提升，并在无标注点云语义分割设置中取得了有希望的结果，展示了其在标签效率学习方面的巨大潜力。

Dec, 2023

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

强大的 CLIP：用于强大的大规模视觉 - 语言模型的无监督对抗微调的视觉嵌入

我们提出了一种无监督的对抗微调方案来获得强大的 CLIP 视觉编码器，从而在依赖于 CLIP 的所有视觉下游任务（VLM，零样本分类）中获得强大的鲁棒性。

Feb, 2024

冻结的 CLIP 模型是高效的视频学习者

本文提出 Efficient Video Learning (EVL) 框架，使用轻量级 Transformer 解码器和学习查询标记以从 CLIP 图像编码器中动态收集帧级空间特征，进一步采用每个解码器层中的局部时间模块来发现相邻帧及其注意力映射中的时间线索。尽管使用了以前的预训练图像模型，本研究表明 EVL 模型在各种视频识别数据集上都学习了高质量的视频表示方法。

Aug, 2022