通过基于 VidSitu 数据集的细节导向字幕和层级损失,我们改进了 contrastive language image pretraining (CLIP) 模型,提高了其对细粒度和句法的理解能力,并在不同任务中取得了稳定的改进。
Jan, 2024
通过引入新的自相关自注意力(CSA)机制,增强了 CLIP 在语义分割方面的潜力,并且在零样本 mIoU 方面明显优于现有的 SoTA 结果和原始的 CLIP。
Dec, 2023
通过将视觉与文本对齐能力作为先验表示,本研究提出了两种训练无关的先验信息生成策略,以更可靠的指导并增强模型的泛化能力。在 PASCAL-5i 和 COCO-20i 数据集上的实验证明我们的方法在少样本分割任务中取得了明显的改进,并达到了新的最先进性能。
May, 2024
通过引入一个新的特征融合模块,本研究提出了一种解决使用轻量级网络的语言引导范式的方法,该模块能够在嵌入空间中促进视觉和文本特征的接近和对齐,并展示出优于之前的最佳方法的性能。
Oct, 2023
本文提出了一种名为 MA-CLIP 的新方法,旨在通过添加轻量级适配器来适应 CLIP 进行少样本动作识别,从而解决传统方法中的参数调优和时间建模的问题。
Aug, 2023
本文提出了一种名为 CALIP 的方法,通过一个无需参数的关注模块,在不增加额外的训练开销和数据需求的情况下提高 Contrastive Language-Image Pre-training 的零样本性能。
Sep, 2022
本文提出了一种自适应先验精细化方法 APE,通过先验精细化模块分析下游数据中的类间差异,将领域特定知识与 CLIP 提取的缓存模型分离,进而在轻量化的类别残差模块的支持下,探究测试图像、先前缓存模型和文本表示之间的三元亲和性,并通过 APE 和 APE-T 这两种模型实现了在 11 个基准数据集上超过第二名 +1.59% 和 +1.99% 的最优性能,且它们使用的学习参数比第二名少 30 倍。
Apr, 2023
通过引入一个简单的微调方法,我们提出了一种改进 CLIP 模型对于释义的表征的方法,该方法使用大规模语言模型从 Web 规模的图像字幕中自动创建两类释义,并在固定图像编码器的同时微调 CLIP 文本编码器。我们的模型 ParaCLIP 在各种任务中都显示出与基准 CLIP 模型相比的显著改进,包括释义检索、Visual Genome 关系和属性,以及七个语义文本相似度任务。
Feb, 2024
本文提出了用层级感知的注意力机制改进 CLIP 模型,以更好的捕捉图像和文本的高层语义,并在视觉识别和与视觉相关的下游任务中获得良好的结果。
Mar, 2023
论文提出了一种用于显式建模时间序列的新型模块,通过视频精调 CLIP 模型,可以将图像级别的表示有效地转移到视频领域,取得了良好的实验效果。
Dec, 2022