CLIP 的多模态多标签分类
多标签分类的零样本学习方法,通过引入 CLIP-Decoder 的多模态表示学习,在零样本多标签分类任务中表现出前沿结果,相较于现有方法在性能上提升了 3.9%,在广义零样本多标签分类任务中提升了近 2.3%。
Jun, 2024
当前的多模态方法存在检索精度低的问题,本文提出了一种新的基准 CLIP 多模态哈希方法,通过使用 CLIP 模型提取文本和图像特征,并将它们融合生成哈希编码,该方法显著提高了多模态哈希方法的检索性能。
Aug, 2023
在艺术作品领域中,我们通过对艺术品图像进行多模式图像预训练,并使用最新的 CLIP 模型,在 NoisyArt 数据集上进行了详尽的实验,取得了令人印象深刻的(零样本)分类效果和良好的艺术品之间及描述与艺术品之间的效果。
Sep, 2023
通过多视图乳房 X 光片和简单文本的多模态框架 Mammo-CLIP,本研究展示了应用微调视觉语言模型来开发下一代基于图像文本的乳腺癌 CAD 方案的潜力。
Apr, 2024
本研究提出 Hate-CLIPper 架构,利用对比语言 - 图像预训练 CLIP 编码器生成的图像和文本表示通过特征交互矩阵(FIM)显式建模图像和文本之间的跨模态交互,并采用简单分类器在 Hateful Memes 挑战数据集上实现了 85.8 的 AUROC,优于人类表现。
Oct, 2022
研究论文简介:本文研究了大型语言模型在图像分类方面的应用,通过对多模态语言模型进行轻微微调,使用对比式图像 - 标题匹配目标,取得了比目前最先进的 MLLMs 提高了 13% 的图像分类性能,同时保留了语言模型的生成能力。
Dec, 2023
将输入图像转化为相应的文字解释是计算机视觉和自然语言处理领域中一个关键而复杂的过程,本文提出了一种创新的集成方法,利用对比式语言图像预训练模型的能力。
Jan, 2024
本文提出了一种用于对医学图像和文本进行训练的的简单而有效的框架 ——MedCLIP,该框架采用了对抗学习和多模式学习,并引入医学知识语义匹配。实验结果表明,MedCLIP 在零样本预测、有监督分类和图像文本检索等方面超过了现有最佳方法。令人惊讶的是,仅使用了 20K 的预训练数据就超过了使用约 200K 数据的现有最佳方法。
Oct, 2022
本研究提出了 CLIPTrans 框架,通过简单地调整预训练的多模态 M-CLIP 和多语言 mBART 模型,使它们的嵌入空间对齐,并通过轻量级映射网络对 mBART 进行条件化。实验证明该框架的优点,并将标准基准提升了平均 2.67 个 BLEU 值。
Aug, 2023