消除CLIP数据的神秘
本文提出CLIP-benchmark,对CLIP及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。
Mar, 2022
本文提出了一种名为LaCLIP的新方法,通过语言重写增强CLIP的训练,具有语料丰富度高的特点,不需要额外的计算或内存负载,实现较高的图像-文本转移性能。
May, 2023
通过研究CLIP模型中两种形式的对齐并提出类别匹配边界来解决其性能不足的问题,成功提高了ImageNet上最差10个类别的准确率,无需手动优化或访问标记验证数据。
Oct, 2023
本研究关注于通过改善数据质量和数据多样性,特别强调了视觉概念与标题的整合,提出了一种用于web爬取数据集训练的新方法VeCLIP,通过综合评估数据效率和模型性能,证明了VeCLIP在改善图片-文本对齐和整体模型性能方面的显著优势。
Oct, 2023
通过基于 VidSitu 数据集的细节导向字幕和层级损失,我们改进了 contrastive language image pretraining (CLIP) 模型,提高了其对细粒度和句法的理解能力,并在不同任务中取得了稳定的改进。
Jan, 2024
EVA-CLIP-18B是目前最大且最强大的开源CLIP模型,拥有180亿参数;只看到60亿个训练样本,EVA-CLIP-18B在27个广泛公认的图像分类基准中,以异乎寻常的80.7%零示例一级准确度表现出色,在模型大小扩展方面,观察到EVA-CLIP的持续性能改进;希望通过提供我们的模型权重公开,促进未来在视觉和多模态基础模型方面的研究。
Feb, 2024
研究通过受限的计算预算缩小规模的对比性语言-图像预训练(CLIP)的性能,分析数据、架构和训练策略三个维度,证明高质量训练数据的重要性,指出较小的数据集在一定计算限制下优于较大数据集,并提供选择基于CNN架构或ViT架构进行CLIP训练的指导。同时比较四种CLIP训练策略,并表明在可用计算资源上选择训练策略的不同,最后发现只使用一半的训练数据,CLIP+数据增强可以实现与CLIP相当的性能。本研究为有效训练和部署CLIP模型提供了实用见解,使其在各种应用中更加可行和经济实惠。
Apr, 2024
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP在扩展CLIP的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了RankCLIP在进一步推进视觉语言预训练方面的潜力。
Apr, 2024
该论文探索了在有限资源下进行Contrastive Language-Image Pretraining (CLIP)训练的几个方面,介绍了FastCLIP框架及其在资源有限环境下的显著改进。
Jul, 2024
本研究针对CLIP模型在分类稳健性方面的评估,提出了一种更为全面的评估方法。通过分析视觉因素变化、信心不确定性、超出分布检测和3D意识等多个维度,发现模型架构对3D损坏的稳健性影响显著,同时识别出CLIP模型在预测时有形状偏倚的问题,从而为提升其稳健性与可靠性提供了重要指导。
Oct, 2024