使用 ViT CLIP 的通用图像描述符用于开放世界图像检索

ECCVOct, 2022

使用 ViT CLIP 的通用图像描述符用于开放世界图像检索

General Image Descriptors for Open World Image Retrieval using ViT CLIP

Marcos V. Conde, Ivan Aerlic, Simon Jégou

TL;DR本文介绍了 Google Universal Image Embedding Challenge 竞赛中 4th place 的解决方案，重点讲述了用 CLIP 对零样本 Vision Transformers 进行微调的技巧，从而在多领域图像表示方面取得优秀的效果。

Abstract

The Google Universal Image Embedding (GUIE) Challenge is one of the first competitions in multi-domain image representations in the wild, covering a wide distribution of objects: landmarks, artwork, food, etc. This is a fundamental →

google universal image embedding challenge multi-domain image representations computer vision image retrieval vision transformers

发现论文，激发创造

Google 通用图像嵌入第 6 名解决方案

基于 CLIP 架构，使用 SubCenter ArcFace loss ,dynamic margins 和提高 transfer learning 策略，以 Google Universal Image Embedding 竞赛为基础，创建了多样化的数据集，最终在 Kaggle 的排名中获得第六名，私有排行榜得分为 0.685。

Oct, 2022

GUing: 使用视觉语言模型的移动 GUI 搜索引擎

本论文提出了一种基于名为 UIClip 的视觉语言模型的 GUI 搜索引擎 GUing，其通过训练特定于应用 GUI 领域的大型数据集，在文本查询中实现了优于以前方法的文本到 GUI 的检索。

Apr, 2024

通过引导裁剪实现零样本视觉分类

我们提出了 GC-CLIP，通过在预处理步骤中使用现成的零样本目标检测模型，增加零样本分类器对感兴趣目标的关注，并减少无关图像区域的影响，从而提高了零样本分类结果。

Sep, 2023

UMG-CLIP: 一个统一的多粒度视觉通才用于开放世界理解

该研究扩展了 CLIP 模型的多粒度对齐，在多个层次上构建了伪注释数据集，并开发了名为 UMG-CLIP 的统一多粒度学习框架，通过参数高效调整，实现了在各种图像理解基准测试中超越当前广泛使用的 CLIP 模型，包括开放世界识别、检索、语义分割和全景分割任务，具有最先进的性能。

Jan, 2024

提升人工智能生成图像检测的水平与 CLIP

本研究旨在探索预训练视觉 - 语言模型（VLMs）在人工智能生成图像的普适检测中的潜力。我们基于 CLIP 特征开发了一种轻量级检测策略，并研究其在各种具有挑战性的场景下的性能。我们发现，与以往的观点不同，并不需要使用大量特定领域的数据集进行训练是必要且方便的。相反，通过仅利用来自单个生成模型的少量示例图像，基于 CLIP 的检测器展现出了出乎意料的泛化能力，并且在包括 Dalle-3、Midjourney v5 和 Firefly 在内的最新商业工具中具有高鲁棒性。我们在分布内数据上与 SoTA 相匹配，并在分布外数据的泛化能力（AUC 提高 6%）和受损 / 清洗数据的鲁棒性上实现了显著的改进（+ 13％）。我们的项目可以在此 https URL 找到。

Nov, 2023

混合低秩专家用于可传输的人工智能生成图像检测

通过开发通用的人工智能生成图像检测器，该研究旨在识别不同来源的图像。该方法通过深入挖掘 CLIP-ViT 的潜力并保留知识，扩展可传递检测的能力，提出了一种新颖的参数高效的微调方法，使用低秩专家的混合模式在 MoE 结构中融合共享和分离的 LoRAs。通过在公共基准测试中进行大量实验，我们的方法在跨生成器泛化和对扰动的鲁棒性方面实现了超越最先进方法的优越性。值得注意的是，我们表现最佳的 ViT-L/14 变体只需训练其 0.08% 的参数即可将最领先的基线提高 + 3.64% 的 mAP 和 + 12.72% 的平均准确率，超越了仅使用训练数据的 0.28% 的基线。

Apr, 2024

CLIPSelf：视觉 Transformer 用于开放词汇密集预测的自我精简

该论文对 CLIP 模型中的区域 - 语言对齐进行了深入分析，并提出了一种名为 CLIPSelf 的方法，该方法能够将 CLIP ViTs 的图像级识别能力应用到局部图像区域中，从而在开放式词汇密集预测任务中取得了最新的最优性能。

Oct, 2023

DetCLIP：用于开放世界检测的词典增强视觉概念并行预训练

DetCLIP 是一种基于视觉概念预训练的方法，通过设计概念词典进行知识丰富，采用平行概念制定提高学习效率，以及利用在线资源和检测数据集构建概念词典，进而提高零样本检测性能。

Sep, 2022

简单而有效：CLIP 嵌入用于具身人工智能

通过比较使用传统的 ImageNet 预训练模型和使用 CLIP 模型训练的模型，在实现与物理机器人和虚拟模拟任务相关的领域，我们展示并证明了在不加入神经复杂性、语义地图、辅助训练任务与深度图等的情况下使用 EmbCLIP 基线的高性能表现，从而证明了 CLIP 编码器对于情感取向环境下的物理对象导航与智能的有效性。

Nov, 2021

CLIP-VIS：适应开放词汇视频实例分割

本研究提出了一个名为 CLIP-VIS 的简单编码器 - 解码器网络，用于自适应开放词汇视频实例分割。CLIP-VIS 采用冻结的 CLIP 图像编码器，并引入了类不可知的掩码生成、时序 Top-K 增强匹配和加权开放词汇分类三个模块，实验结果表明该方法在各种视频实例分割数据集上表现出色。

Mar, 2024