Nov, 2023
MobileCLIP: 多模态加强训练的快速图像 - 文本模型
MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training
Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel
TL;DR在这项研究中,我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列,通过一种名为多模态增强训练的新颖且高效的训练方法,利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移,将额外的知识存储在增强数据集中而避免了训练时计算开销,从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。