Nov, 2023

MobileCLIP: 多模态加强训练的快速图像 - 文本模型

TL;DR在这项研究中,我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列,通过一种名为多模态增强训练的新颖且高效的训练方法,利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移,将额外的知识存储在增强数据集中而避免了训练时计算开销,从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。