探索 CLIP 用于评估图像外观和感觉
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022
CLIP 模型是基于文本查询的图像检索的重要进展,通过在大规模数据集上进行训练获得显著的泛化能力,实现了图像和文本的跨模态理解,促进了自然语言理解和计算机视觉的无缝集成,为多媒体应用中的信息检索提供了强大的工具。
Jan, 2024
通过对 Contrastive Language-Image Pre-training (CLIP) 在医学成像领域中的深入探索,本综述论文旨在为医学图像分析领域的研究人员提供对 CLIP 范式及其潜在影响的整体理解。
Dec, 2023
以数据筛选为核心的对比语言 - 图像预训练及元数据筛选的方法 MetaCLIP,在多个标准基准测试中优于 CLIP 以 CommonCrawl 为数据源的结果,MetaCLIP 在零样本 ImageNet 分类中达到 70.8% 的准确率,并在 1B 数据的情况下保持相同的训练预算达到 72.4% 的准确率。
Sep, 2023
通过使用科学论文的文本 - 图像数据,该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升,表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。
Nov, 2023
通过结合 CLIP 模型和相对简单的基线方法,我们提出了一种称为 CLIP-LUT 的简单结构,用于图像增强,并证明该方法能够获得令人满意的结果。
Nov, 2023
我们提出了一种理论上严谨的数据选择方法,通过保留图像和标题的交叉协方差,提高 Contrastive Language-Image Pre-training 模型的泛化性能,并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明,我们的子集相比其他基线方法,可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度,同时,在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。
Mar, 2024
通过在 CLIP 训练中结合任务特定的视觉模型,利用伪标签来改进其视觉表示,该简单的设置在不妨碍现有性能的前提下,显著提高了不同视觉任务的效果。
Oct, 2023
该研究全面调查了 Contrastive Language-Image Pre-training (CLIP) 模型的安全目标,特别关注三个关键属性:对视觉因素变化的弹性,校准的不确定性估计以及检测异常输入的能力。研究揭示了 CLIP 模型的一些以前未知的见解,并强调了训练源设计的重要性及其对三个安全相关属性的深远影响。该全面研究有助于引导更加稳健可靠的 CLIP 模型的发展。
Feb, 2024
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。
Apr, 2024