探究CLIP的开放性
该论文提出了一种针对开放词汇的语义分割方法,即通过预训练模型再特定训练样本上的微调和修正,来解决预训练模型在遮蔽图像上的效果问题,从而提高模型的泛化能力,并通过遮蔽抽取方法有效地提高了语义分割的效果。
Oct, 2022
CLIP(Contrastive Language-Image Pre-training)是一种强大的多模态视觉模型,该论文提出了一种 CLIP Surgery 方法,可以在不降低性能的情况下提升 CLIP 的解释性和性能,并在开放词汇任务中获得了显着的提高,如 NUS-Wide 多标签识别上得到了 4.41% 的平均精度提升,Cityscapes 开放词汇语义分割任务上的 mIoU 也超过了现有方法的 8.74%。
Apr, 2023
通过研究CLIP模型中两种形式的对齐并提出类别匹配边界来解决其性能不足的问题,成功提高了ImageNet上最差10个类别的准确率,无需手动优化或访问标记验证数据。
Oct, 2023
通过引入Long-CLIP作为CLIP的替代方案,本研究提供了一种支持长文本输入的方法,并保持了零样本泛化能力,提高了长标题文本-图像检索和传统文本-图像检索任务的性能。
Mar, 2024
现代应用越来越需要适应训练过程中未遇到的新概念的灵活计算机视觉模型。本文通过对开放词汇物体识别限制的详细研究,发现了这些限制的根本原因,并试图理解是否存在于CLIP嵌入中的细粒度知识未能在推断时利用。我们的初步实验表明,简单的CLIP潜空间重新投影有助于分离细粒度概念,为开发能够处理细节的骨干网络铺平了道路。
Apr, 2024
通过挖掘开放语义作为锚点,并采用转换器模块进行从图像-锚点关系到图像-目标关系的关系转换,我们的方法在少样本分类设置中表现出色。
Jun, 2024
通过研究CLIP的[CLS]标记对补丁特征相关性的影响,我们提出了一种称为CLIPtrase的训练免费的语义分割策略,通过重新校准补丁之间的自相关性来提高局部特征的认知能力。该方法在分割准确性和对象间语义一致性的保持方面表现出显著的改进,超过了现有的最先进的无需训练的方法。
Jul, 2024
本研究解决了CLIP模型内部工作机制不明的问题,通过量化CLIP类模型的可解释性,对六种不同的CLIP模型进行分析。研究发现,较大的CLIP模型通常比小型模型更易于解释,提出了CLIP-InterpreT工具以帮助用户理解CLIP模型的内部结构,提供多种可解释性分析功能。
Sep, 2024
本研究针对CLIP模型在分类稳健性方面的评估,提出了一种更为全面的评估方法。通过分析视觉因素变化、信心不确定性、超出分布检测和3D意识等多个维度,发现模型架构对3D损坏的稳健性影响显著,同时识别出CLIP模型在预测时有形状偏倚的问题,从而为提升其稳健性与可靠性提供了重要指导。
Oct, 2024
本研究解决了CLIP模型在图像分类中的解读与分析问题,尤其是如何理解视觉和语言两个模态之间的共同概念。通过文本概念的解释方法,我们分析了13个不同架构、规模和预训练数据集的CLIP模型,发现它们的互知识关系有效影响了零样本预测的结果。这一方法为理解CLIP的零样本分类决策提供了有效且易于人类理解的方式。
Oct, 2024