MoDE: 通过聚类实现 CLIP 数据专家

CVPRApr, 2024

MoDE: CLIP Data Experts via Clustering

Jiawei Ma, Po-Yao Huang, Saining Xie, Shang-Wen Li, Luke Zettlemoyer...

TL;DR使用混合数据专家（MoDE）方法提高神经网络 CLIP 在零样本图像分类任务上的性能，通过聚类学习多个数据专家，使用元数据与聚类条件的相关性确定权重进行模型集成。

Abstract

The success of contrastive language-image pretraining (clip) relies on the supervision from the pairing between images and captions, which tends to be noisy in →

contrastive language-image pretraining clip mixture of data experts web-crawled data ontology

发现论文，激发创造

消除 CLIP 数据的神秘

以数据筛选为核心的对比语言 - 图像预训练及元数据筛选的方法 MetaCLIP，在多个标准基准测试中优于 CLIP 以 CommonCrawl 为数据源的结果，MetaCLIP 在零样本 ImageNet 分类中达到 70.8% 的准确率，并在 1B 数据的情况下保持相同的训练预算达到 72.4% 的准确率。

Sep, 2023

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

跨模态检索遇见推理：通过跨模态检索提升零样本分类

通过跨模态引导和模态置信度集成，X-MoRe 方法利用 CLIP 的跨模态表示能力，从外部图文对数据集中检索相关的文本信息，并通过赋予可靠性更高的模态对最终预测产生贡献，从而在多样化的任务中展示了稳健的性能，充分发挥了 CLIP 的零样本分类能力。

Aug, 2023

优化医学多模态对比学习：专家批注

eCLIP 是 CLIP 模型的增强版本，通过整合放射科医师眼动热图的专家注释，解决对比性多模式医学图像分析中的关键挑战，特别是数据稀缺和 “模态差异”。它通过整合热图处理器和利用稀缺的专家注释的 mixup 数据增强，提高模型的学习效果。通过多个任务的详细评估，包括零样本推理、线性探测、跨模态检索和使用冻结的大型语言模型进行检索增强生成（RAG）放射学报告，eCLIP 展示了嵌入质量的持续改进，揭示了增强的对齐性和一致性，证实了 eCLIP 在医学图像领域利用高质量注释进行丰富的多模态分析能力。

Mar, 2024

多模态 CLIP 推理用于元 - 少样本图像分类

结合 CLIP 的文本和图像编码器的多模态方法，在广泛采用的基准测试上超越了最先进的元少样学习模型，而无需额外训练。

Mar, 2024

EfficientCLIP: 基于集成自信学习和语言模型的高效跨模态预训练

本文提出了 EfficientCLIP 方法，通过集成自信度学习来获取数据噪声较少的子集，并利用额外的丰富的非配对单模态文本数据来增强文本分支的泛化能力，从而实现了仅使用 CLIP 和 WenLan 的 1/10 培训资源就能达到中文跨模态检索任务的最优表现，并对文本检索和文本分类等单模态任务表现出良好的泛化能力。

Sep, 2021

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率，并在转化到下游任务时优于常规 CLIP 模型。

Oct, 2021

使用科学论文数据训练 CLIP 模型

通过使用科学论文的文本 - 图像数据，该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升，表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。

Nov, 2023

预训练模型合作提高 Few-shot 学习性能

本文提出 CoMo 模型，利用预训练模型中的知识嵌入到 few-shot 分类中，包括 CLIP 的语言对比知识、DINO 的视觉对比知识和 DALL-E 的语言生成知识，通过学习多种知识方法，本文展示了在 11 个数据集上的优越性和泛化能力。

Sep, 2022

高效对比语言 - 图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高 Contrastive Language-Image Pre-training 模型的泛化性能，并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明，我们的子集相比其他基线方法，可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度，同时，在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。

Mar, 2024