CLIP 的多模态多标签分类

Jun, 2024

Multimodal Multilabel Classification by CLIP

Yanming Guo

TL;DR设计一个学习算法来处理图像和文本两个数据源，通过使用对比语言图像预训练作为特征提取器并探索不同的分类头、融合方法和损失函数来学习全面的语义特征表示，最终在公共 Kaggle 竞赛排行榜上获得超过 90% 的 F_1 分数。本文通过实验结果提供了新的训练方法和定量分析的详细描述。

Abstract

multimodal multilabel classification (MMC) is a challenging task that aims to design a learning algorithm to handle two data sources, the image and text, and learn a comprehensive →

multimodal multilabel classification learning algorithm semantic feature presentation contrastive language-image pre-training fusion methods

发现论文，激发创造

CLIP 解码器：使用多模态 CLIP 对齐表示进行零样本多标签分类

多标签分类的零样本学习方法，通过引入 CLIP-Decoder 的多模态表示学习，在零样本多标签分类任务中表现出前沿结果，相较于现有方法在性能上提升了 3.9％，在广义零样本多标签分类任务中提升了近 2.3％。

Jun, 2024

多模态 CLIP 推理用于元 - 少样本图像分类

结合 CLIP 的文本和图像编码器的多模态方法，在广泛采用的基准测试上超越了最先进的元少样学习模型，而无需额外训练。

Mar, 2024

CLIP 多模态哈希：一个新的基准 CLIPMH

当前的多模态方法存在检索精度低的问题，本文提出了一种新的基准 CLIP 多模态哈希方法，通过使用 CLIP 模型提取文本和图像特征，并将它们融合生成哈希编码，该方法显著提高了多模态哈希方法的检索性能。

Aug, 2023

利用基于 CLIP 的多模态方法进行艺术品分类与检索

在艺术作品领域中，我们通过对艺术品图像进行多模式图像预训练，并使用最新的 CLIP 模型，在 NoisyArt 数据集上进行了详尽的实验，取得了令人印象深刻的（零样本）分类效果和良好的艺术品之间及描述与艺术品之间的效果。

Sep, 2023

Mammo-CLIP：利用对比式语言 - 图像预训练（CLIP）对多视角乳腺摄影增强乳腺癌诊断

通过多视图乳房 X 光片和简单文本的多模态框架 Mammo-CLIP，本研究展示了应用微调视觉语言模型来开发下一代基于图像文本的乳腺癌 CAD 方案的潜力。

Apr, 2024

Hate-CLIPper：基于 CLIP 特征交叉模态交互的多模式仇恨恶搞分类

本研究提出 Hate-CLIPper 架构，利用对比语言 - 图像预训练 CLIP 编码器生成的图像和文本表示通过特征交互矩阵（FIM）显式建模图像和文本之间的跨模态交互，并采用简单分类器在 Hateful Memes 挑战数据集上实现了 85.8 的 AUROC，优于人类表现。

Oct, 2022

CLAMP：对比式语言模型启发调节

研究论文简介：本文研究了大型语言模型在图像分类方面的应用，通过对多模态语言模型进行轻微微调，使用对比式图像 - 标题匹配目标，取得了比目前最先进的 MLLMs 提高了 13% 的图像分类性能，同时保留了语言模型的生成能力。

Dec, 2023

基于 CLIP 的图像到文本转换提升多模态理解能力

将输入图像转化为相应的文字解释是计算机视觉和自然语言处理领域中一个关键而复杂的过程，本文提出了一种创新的集成方法，利用对比式语言图像预训练模型的能力。

Jan, 2024

MedCLIP: 对未配对的医学影像和文本进行对比学习

本文提出了一种用于对医学图像和文本进行训练的的简单而有效的框架 ——MedCLIP，该框架采用了对抗学习和多模式学习，并引入医学知识语义匹配。实验结果表明，MedCLIP 在零样本预测、有监督分类和图像文本检索等方面超过了现有最佳方法。令人惊讶的是，仅使用了 20K 的预训练数据就超过了使用约 200K 数据的现有最佳方法。

Oct, 2022

CLIPTrans：基于预训练模型的多模态机器翻译中的视觉知识迁移

本研究提出了 CLIPTrans 框架，通过简单地调整预训练的多模态 M-CLIP 和多语言 mBART 模型，使它们的嵌入空间对齐，并通过轻量级映射网络对 mBART 进行条件化。实验证明该框架的优点，并将标准基准提升了平均 2.67 个 BLEU 值。

Aug, 2023