- 高分辨率远程感知图像无监督变化检测中的分割变换模型:以建筑物为例的案例研究
提出了一种无监督变化检测方法 Segment Change Model (SCM),利用 Vision Foundation Model (VFM) 和 Contrastive Language-Image Pre-training (CL - 驾驶场景的弱监督语义分割
基于对数据集特征的广泛分析,我们提出了一种新的弱监督语义分割框架,通过使用对驾驶场景数据集进行定制化处理,克服了现有技术在这类数据集上性能严重降低的挑战,并针对 Contrastive Language-Image Pre-training - AAAITagCLIP:一种增强无需训练的 CLIP 开放词汇多标签分类的本地到全局框架
通过局部到全局的框架,我们提出了一种扩展了 CLIP 的方法来提高多标签分类性能,并通过生成的标签在弱监督语义分割任务中取得了显著的性能提升。
- 医学影像中的 CLIP 技术综述
通过对 Contrastive Language-Image Pre-training (CLIP) 在医学成像领域中的深入探索,本综述论文旨在为医学图像分析领域的研究人员提供对 CLIP 范式及其潜在影响的整体理解。
- Alpha-CLIP:聚焦于您想要的地方的 CLIP 模型
Alpha-CLIP 是 CLIP 的一个增强版本,通过辅助的 alpha 通道来建议注意力集中的区域,并基于构建的 RGBA 区域 - 文本对进行微调。Alpha-CLIP 不仅保留了 CLIP 的视觉识别能力,还能精确控制图像内容的强调 - 零样本组合人物检索
提出了一种新的任务,称为组合人员检索(CPR),通过整合图像和文本信息实现目标人员的检索;通过 Zero-shot Composed Person Retrieval(ZS-CPR)方法,利用现有领域相关数据解决了高代价手动注释数据资源的问 - 优化语义关联微调的少样本 CLIP
通过对关注池化层进行微调,强调任务特定语义信息的注意力分布,以提高普通少样本学习的 CLIP 模型的效果。
- 借助图像 - 语言相似性的重新打分方法用于小样本目标检测
利用 Contrastive Language-Image Pre-training (CLIP) 和 hard negative classification loss,在少数据环境下通过 Re-scoring using Image-l - 研究 CLIP 模型的限制:最差表现的分类
通过研究 CLIP 模型中两种形式的对齐并提出类别匹配边界来解决其性能不足的问题,成功提高了 ImageNet 上最差 10 个类别的准确率,无需手动优化或访问标记验证数据。
- CLIPSelf:视觉 Transformer 用于开放词汇密集预测的自我精简
该论文对 CLIP 模型中的区域 - 语言对齐进行了深入分析,并提出了一种名为 CLIPSelf 的方法,该方法能够将 CLIP ViTs 的图像级识别能力应用到局部图像区域中,从而在开放式词汇密集预测任务中取得了最新的最优性能。
- 消除 CLIP 数据的神秘
以数据筛选为核心的对比语言 - 图像预训练及元数据筛选的方法 MetaCLIP,在多个标准基准测试中优于 CLIP 以 CommonCrawl 为数据源的结果,MetaCLIP 在零样本 ImageNet 分类中达到 70.8% 的准确率, - 寻找您所需的:为需求驱动导航学习需求条件的物体属性空间
通过 Contrastive Language-Image Pre-training(CLIP) 基于视觉属性特征,我们提出了一种 Demand-driven Navigation(DDN)方法,以满足用户对指定需求的物体的导航要求,并在 - 跨模态检索遇见推理:通过跨模态检索提升零样本分类
通过跨模态引导和模态置信度集成,X-MoRe 方法利用 CLIP 的跨模态表示能力,从外部图文对数据集中检索相关的文本信息,并通过赋予可靠性更高的模态对最终预测产生贡献,从而在多样化的任务中展示了稳健的性能,充分发挥了 CLIP 的零样本分 - VadCLIP: 适应弱监督视频异常检测的视觉语言模型
通过直接利用对比式语言 - 图像预训练模型 (CLIP) 在视频领域的强大表示能力和设计鲁棒的视频异常检测器,本文提出了 VadCLIP,一种弱监督视频异常检测范例,无需预训练和微调过程,通过双分支实现粗粒度和细粒度的视频异常检测,实验结果 - ICCVALIP: 自适应语言图像预训练与合成字幕
通过生成综合信息的合成字幕并动态调整样本权重,自适应对比损失有效降低噪音数据的影响并增强预训练数据效率,Adaptive Language-Image Pre-training (ALIP) 在不同规模模型和预训练数据集上进行了实验验证,并 - 利用无监督提示学习改进图像字幕泛化性能
通过无监督的提示学习方法,本文提出了一种改进图像字幕生成通用性的方法,该方法利用预训练的视觉 - 语言模型来学习目标领域的特定提示向量,通过属性一致性和语义一致性优化领域特定提示向量,从而有效地保留了大型模型中的知识并引入了领域特定知识。
- ACLUniFine: 一种用于零样本视觉 - 语言理解的统一和细粒度方法
本文提出了一个统一的框架,以利用精细的信息实现零样本视觉语言学习,涵盖了多个任务,如视觉问题回答,SNLI-VE 和 VCR,并证实了该方法的有效性和泛化性。
- 面向野外视频质量评估的鲁棒性文本提示语义标准
提出了一种基于文本的语义相关质量评价方法 (SAQI) 及其本地化版本 (SAQI-Local)。通过与现有低级指标结合,提出了统一盲视频质量指数 (BVQI) 及其改进版 (BVQI-Local),并通过有效的微调方案,实现了优于普遍基于 - CLIP-Lung: 基于文本知识指导的肺结节恶性预测
本文提出了 CLIP-Lung 作为肺结节恶性预测的文本知识引导框架,通过融合深度学习和临床文本信息提高了肺结节恶性预测的性能和可解释性。
- 探索用于不平衡学习的视觉 - 语言模型
本文针对 Vision-Language models 在处理 imbalanced dataset 时性能较差的问题,提出了加入 lightweight decoder 和 imbalanced 方法的改进方案,并在 ImageNet-L