CLIP 训练的反比例缩放定律
通过研究表明,CLIPA 可以通过反比例尺度律以更低的计算成本实现高性能的训练,可以在 finetuning 阶段进一步减少计算需求,从而实现零样本 Imagenet 准确率的提高。
Jun, 2023
通过引入 Long-CLIP 作为 CLIP 的替代方案,本研究提供了一种支持长文本输入的方法,并保持了零样本泛化能力,提高了长标题文本 - 图像检索和传统文本 - 图像检索任务的性能。
Mar, 2024
本研究探索了对比语言 - 图像预训练(CLIP)的缩放定律,使用了公共数据集和开放源代码来研究缩放规律,并发现训练分布在缩放规律中起关键作用。通过在多个下游任务中评估最大规模的公共 CLIP 模型,我们发现在多个下游任务中,有效训练集大小、模型大小和计算量与性能之间具有幂律缩放关系。
Dec, 2022
研究通过受限的计算预算缩小规模的对比性语言 - 图像预训练(CLIP)的性能,分析数据、架构和训练策略三个维度,证明高质量训练数据的重要性,指出较小的数据集在一定计算限制下优于较大数据集,并提供选择基于 CNN 架构或 ViT 架构进行 CLIP 训练的指导。同时比较四种 CLIP 训练策略,并表明在可用计算资源上选择训练策略的不同,最后发现只使用一半的训练数据,CLIP + 数据增强可以实现与 CLIP 相当的性能。本研究为有效训练和部署 CLIP 模型提供了实用见解,使其在各种应用中更加可行和经济实惠。
Apr, 2024
该论文探索了在有限资源下进行 Contrastive Language-Image Pretraining (CLIP) 训练的几个方面,介绍了 FastCLIP 框架及其在资源有限环境下的显著改进。
Jul, 2024
本文介绍了一种名为 RECLIP 的方法,其最小化了用于 Contrastive Language Image Pretraining 的计算资源,实现了高效的语言监督预训练。该方法利用小图像高效地学习大规模语言监督,并在最后使用高分辨率数据进行微调,以降低训练资源要求,并展示了与现有方法相比极具竞争力的指标表现。
Apr, 2023
通过研究最先进的文本到图像模型生成的合成图像在规模上的表现,本文发现合成图像在训练监督图像分类器时性能较差原因是某些概念无法被现成的文本到图像模型生成,但对于与真实图像结合训练 CLIP 模型或存在真实图像供给不足或评估数据集与训练数据差异较大的情况下,扩大合成数据规模可能特别有效。
Dec, 2023
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022
在这项研究中,我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列,通过一种名为多模态增强训练的新颖且高效的训练方法,利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移,将额外的知识存储在增强数据集中而避免了训练时计算开销,从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。
Nov, 2023
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
Dec, 2023