评估 CLIP:对更广泛功能和下游影响的表征
该研究全面调查了 Contrastive Language-Image Pre-training (CLIP) 模型的安全目标,特别关注三个关键属性:对视觉因素变化的弹性,校准的不确定性估计以及检测异常输入的能力。研究揭示了 CLIP 模型的一些以前未知的见解,并强调了训练源设计的重要性及其对三个安全相关属性的深远影响。该全面研究有助于引导更加稳健可靠的 CLIP 模型的发展。
Feb, 2024
CLIP 模型是基于文本查询的图像检索的重要进展,通过在大规模数据集上进行训练获得显著的泛化能力,实现了图像和文本的跨模态理解,促进了自然语言理解和计算机视觉的无缝集成,为多媒体应用中的信息检索提供了强大的工具。
Jan, 2024
通过对 Contrastive Language-Image Pre-training (CLIP) 在医学成像领域中的深入探索,本综述论文旨在为医学图像分析领域的研究人员提供对 CLIP 范式及其潜在影响的整体理解。
Dec, 2023
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022
通过使用科学论文的文本 - 图像数据,该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升,表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。
Nov, 2023
我们的研究旨在揭示 CLIP 模型在图像理解方面存在的问题和盲点,通过对比 CLIP 与人类图像理解的共性与差异,我们发现 CLIP 在图像解释上存在与人类感知相比的显著差异,包括行动与静止的混淆、无法识别图像中的运动方向或物体位置、产生类似水的特征的幻觉,以及对地理环境的错误归因等 14 个系统性问题。通过解决这些限制,我们为开发更准确细致的图像嵌入模型奠定了基础,推动了人工智能的发展。
Jun, 2024
通过研究 CLIP 模型中两种形式的对齐并提出类别匹配边界来解决其性能不足的问题,成功提高了 ImageNet 上最差 10 个类别的准确率,无需手动优化或访问标记验证数据。
Oct, 2023
CLIP(Contrastive Language-Image Pre-training)是一种强大的多模态视觉模型,该论文提出了一种 CLIP Surgery 方法,可以在不降低性能的情况下提升 CLIP 的解释性和性能,并在开放词汇任务中获得了显着的提高,如 NUS-Wide 多标签识别上得到了 4.41% 的平均精度提升,Cityscapes 开放词汇语义分割任务上的 mIoU 也超过了现有方法的 8.74%。
Apr, 2023
通过分析 CLIP 模型的脆弱性,我们揭示了其中关于图像质量和压缩对零样本图像识别准确性影响的本质,并在 CIFAR-10 和 STL-10 数据集上进行了广泛评估,从而为改进 CLIP 和其他视觉语言模型的鲁棒性提供了基础。
Nov, 2023
本研究旨在探索预训练视觉 - 语言模型(VLMs)在人工智能生成图像的普适检测中的潜力。我们基于 CLIP 特征开发了一种轻量级检测策略,并研究其在各种具有挑战性的场景下的性能。我们发现,与以往的观点不同,并不需要使用大量特定领域的数据集进行训练是必要且方便的。相反,通过仅利用来自单个生成模型的少量示例图像,基于 CLIP 的检测器展现出了出乎意料的泛化能力,并且在包括 Dalle-3、Midjourney v5 和 Firefly 在内的最新商业工具中具有高鲁棒性。我们在分布内数据上与 SoTA 相匹配,并在分布外数据的泛化能力(AUC 提高 6%)和受损 / 清洗数据的鲁棒性上实现了显著的改进(+ 13%)。我们的项目可以在此 https URL 找到。
Nov, 2023