使用 ViT CLIP 的通用图像描述符用于开放世界图像检索
基于 CLIP 架构,使用 SubCenter ArcFace loss ,dynamic margins 和提高 transfer learning 策略,以 Google Universal Image Embedding 竞赛为基础,创建了多样化的数据集,最终在 Kaggle 的排名中获得第六名,私有排行榜得分为 0.685。
Oct, 2022
本论文提出了一种基于名为 UIClip 的视觉语言模型的 GUI 搜索引擎 GUing,其通过训练特定于应用 GUI 领域的大型数据集,在文本查询中实现了优于以前方法的文本到 GUI 的检索。
Apr, 2024
我们提出了 GC-CLIP,通过在预处理步骤中使用现成的零样本目标检测模型,增加零样本分类器对感兴趣目标的关注,并减少无关图像区域的影响,从而提高了零样本分类结果。
Sep, 2023
该研究扩展了 CLIP 模型的多粒度对齐,在多个层次上构建了伪注释数据集,并开发了名为 UMG-CLIP 的统一多粒度学习框架,通过参数高效调整,实现了在各种图像理解基准测试中超越当前广泛使用的 CLIP 模型,包括开放世界识别、检索、语义分割和全景分割任务,具有最先进的性能。
Jan, 2024
本研究旨在探索预训练视觉 - 语言模型(VLMs)在人工智能生成图像的普适检测中的潜力。我们基于 CLIP 特征开发了一种轻量级检测策略,并研究其在各种具有挑战性的场景下的性能。我们发现,与以往的观点不同,并不需要使用大量特定领域的数据集进行训练是必要且方便的。相反,通过仅利用来自单个生成模型的少量示例图像,基于 CLIP 的检测器展现出了出乎意料的泛化能力,并且在包括 Dalle-3、Midjourney v5 和 Firefly 在内的最新商业工具中具有高鲁棒性。我们在分布内数据上与 SoTA 相匹配,并在分布外数据的泛化能力(AUC 提高 6%)和受损 / 清洗数据的鲁棒性上实现了显著的改进(+ 13%)。我们的项目可以在此 https URL 找到。
Nov, 2023
通过开发通用的人工智能生成图像检测器,该研究旨在识别不同来源的图像。该方法通过深入挖掘 CLIP-ViT 的潜力并保留知识,扩展可传递检测的能力,提出了一种新颖的参数高效的微调方法,使用低秩专家的混合模式在 MoE 结构中融合共享和分离的 LoRAs。通过在公共基准测试中进行大量实验,我们的方法在跨生成器泛化和对扰动的鲁棒性方面实现了超越最先进方法的优越性。值得注意的是,我们表现最佳的 ViT-L/14 变体只需训练其 0.08% 的参数即可将最领先的基线提高 + 3.64% 的 mAP 和 + 12.72% 的平均准确率,超越了仅使用训练数据的 0.28% 的基线。
Apr, 2024
该论文对 CLIP 模型中的区域 - 语言对齐进行了深入分析,并提出了一种名为 CLIPSelf 的方法,该方法能够将 CLIP ViTs 的图像级识别能力应用到局部图像区域中,从而在开放式词汇密集预测任务中取得了最新的最优性能。
Oct, 2023
DetCLIP 是一种基于视觉概念预训练的方法,通过设计概念词典进行知识丰富,采用平行概念制定提高学习效率,以及利用在线资源和检测数据集构建概念词典,进而提高零样本检测性能。
Sep, 2022
通过比较使用传统的 ImageNet 预训练模型和使用 CLIP 模型训练的模型,在实现与物理机器人和虚拟模拟任务相关的领域,我们展示并证明了在不加入神经复杂性、语义地图、辅助训练任务与深度图等的情况下使用 EmbCLIP 基线的高性能表现,从而证明了 CLIP 编码器对于情感取向环境下的物理对象导航与智能的有效性。
Nov, 2021
本研究提出了一个名为 CLIP-VIS 的简单编码器 - 解码器网络,用于自适应开放词汇视频实例分割。CLIP-VIS 采用冻结的 CLIP 图像编码器,并引入了类不可知的掩码生成、时序 Top-K 增强匹配和加权开放词汇分类三个模块,实验结果表明该方法在各种视频实例分割数据集上表现出色。
Mar, 2024