深度残差学习用于图像压缩
本文介绍了一种名为 RECLIP 的方法,其最小化了用于 Contrastive Language Image Pretraining 的计算资源,实现了高效的语言监督预训练。该方法利用小图像高效地学习大规模语言监督,并在最后使用高分辨率数据进行微调,以降低训练资源要求,并展示了与现有方法相比极具竞争力的指标表现。
Apr, 2023
通过分析 CLIP 模型的脆弱性,我们揭示了其中关于图像质量和压缩对零样本图像识别准确性影响的本质,并在 CIFAR-10 和 STL-10 数据集上进行了广泛评估,从而为改进 CLIP 和其他视觉语言模型的鲁棒性提供了基础。
Nov, 2023
本文提出了一种利用 CLIP 模型来提高图像去噪的对称编码器 - 解码器网络,并通过渐进特征增强策略来改善解码器的鲁棒性,实验证明该方法具有优越的泛化能力。
Mar, 2024
通过交叉模态对比学习以及软图像 - 文本对齐等方法,改进了 CLIP 模型,在处理带有噪声的数据集时能更加高效地学习出具有鲁棒性的表示。经过对 14 个基准数据集的广泛评估,该方法在多种设置下表现均优于 CLIP,并且没有增加计算成本。此外,该方法还在自然分布偏移的鲁棒性测试中表现更好。
Apr, 2022
我们提出了一种理论上严谨的数据选择方法,通过保留图像和标题的交叉协方差,提高 Contrastive Language-Image Pre-training 模型的泛化性能,并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明,我们的子集相比其他基线方法,可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度,同时,在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。
Mar, 2024
基于 CLIP 架构,使用 SubCenter ArcFace loss ,dynamic margins 和提高 transfer learning 策略,以 Google Universal Image Embedding 竞赛为基础,创建了多样化的数据集,最终在 Kaggle 的排名中获得第六名,私有排行榜得分为 0.685。
Oct, 2022
本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法,Data efficient CLIP (DeCLIP),通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征,在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率,并在转化到下游任务时优于常规 CLIP 模型。
Oct, 2021
提出了 TransClippedCLR 模型,通过编码图像的全局上下文和局部上下文,使用产品量化生成哈希码,并通过剪切对比学习避免潜在的错误负对,实现了在基准数据集(包括 CIFAR10、NUS-Wide 和 Flickr25K)上无监督图像检索的卓越性能,相较于最新的深度模型,在所有数据集上使用所提出的剪切对比学习相比于使用相同基础网络的普通对比学习,取得了显著的改善。
Jan, 2024
本文介绍了一种名为 PICI 的新型深度图像聚类方法,通过部分信息辨别和跨层级交互在联合学习框架中进行。通过使用 Transformer 编码器作为骨干网络,我们形成了具有两个并行增广视图的蒙版图像建模。从通过 Transformer 编码器从蒙版图像中导出的类别标记开始,我们进一步融入了三个部分信息学习模块,包括通过蒙版图像重构训练自动编码器的 PISD 模块、使用两个层次的对比学习的 PICD 模块,以及相互交互的实例级和群集级子空间之间的 CLI 模块。我们在六个真实世界的图像数据集上进行了大量实验,结果表明所提出的 PICI 方法在深度聚类方法方面具有优越的聚类性能。源代码可在此 https URL 找到。
Jan, 2024
本文提出了利用特征点之间的相似性来弥补像素级反馈不足的方法,引入随机特征一致性学习和多目标全局一致性学习作为约束,使得同一类别中物体特征一致并逐渐逼近类别中心,在 ILSVRC 和 CUB-200-2011 数据集上获得了 45.17% 的最小化定位误差率,并超越了当前最先进的方法。
Aug, 2020