CLIP 多模态哈希：一个新的基准 CLIPMH

Aug, 2023

CLIP 多模态哈希：一个新的基准 CLIPMH

CLIP Multi-modal Hashing: A new baseline CLIPMH

Jian Zhu, Mingkai Sheng, Mingda Ke, Zhangmin Huang, Jingfei Chang

TL;DR当前的多模态方法存在检索精度低的问题，本文提出了一种新的基准 CLIP 多模态哈希方法，通过使用 CLIP 模型提取文本和图像特征，并将它们融合生成哈希编码，该方法显著提高了多模态哈希方法的检索性能。

Abstract

The multi-modal hashing method is widely used in multimedia retrieval. It can fuse multi-source data to generate binary hash code. However, the current multi-modal methods have the problem of low retrieval accuracy

multi-modal hashing retrieval accuracy clip multi-modal hashing expressiveness retrieval performance

发现论文，激发创造

CLIP 的多模态多标签分类

设计一个学习算法来处理图像和文本两个数据源，通过使用对比语言图像预训练作为特征提取器并探索不同的分类头、融合方法和损失函数来学习全面的语义特征表示，最终在公共 Kaggle 竞赛排行榜上获得超过 90% 的 F_1 分数。本文通过实验结果提供了新的训练方法和定量分析的详细描述。

Jun, 2024

释放 CLIP 在视频亮点检测中的潜力

通过利用多模态模型中预训练知识和创新的显著性池化技术，我们在视频亮点检测任务中通过简单微调多模态编码器达到了最先进的性能，对于 QVHighlight 基准测试而言，可获得最佳表现。

Apr, 2024

多模态 CLIP 推理用于元 - 少样本图像分类

结合 CLIP 的文本和图像编码器的多模态方法，在广泛采用的基准测试上超越了最先进的元少样学习模型，而无需额外训练。

Mar, 2024

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

Hate-CLIPper：基于 CLIP 特征交叉模态交互的多模式仇恨恶搞分类

本研究提出 Hate-CLIPper 架构，利用对比语言 - 图像预训练 CLIP 编码器生成的图像和文本表示通过特征交互矩阵（FIM）显式建模图像和文本之间的跨模态交互，并采用简单分类器在 Hateful Memes 挑战数据集上实现了 85.8 的 AUROC，优于人类表现。

Oct, 2022

CLIPTrans：基于预训练模型的多模态机器翻译中的视觉知识迁移

本研究提出了 CLIPTrans 框架，通过简单地调整预训练的多模态 M-CLIP 和多语言 mBART 模型，使它们的嵌入空间对齐，并通过轻量级映射网络对 mBART 进行条件化。实验证明该框架的优点，并将标准基准提升了平均 2.67 个 BLEU 值。

Aug, 2023

DialCLIP: 增强 CLIP 作为多模态对话检索器

提出了一种名为 DialCLIP 的参数高效的提示调整方法，用于多模态对话检索，通过仅调整总参数的 0.04％实现了在两个广泛认可的基准数据集上的最新性能，突出了该方法的功效和效率，强调其推动多模态对话检索领域发展的潜力。

Jan, 2024

跨模态检索遇见推理：通过跨模态检索提升零样本分类

通过跨模态引导和模态置信度集成，X-MoRe 方法利用 CLIP 的跨模态表示能力，从外部图文对数据集中检索相关的文本信息，并通过赋予可靠性更高的模态对最终预测产生贡献，从而在多样化的任务中展示了稳健的性能，充分发挥了 CLIP 的零样本分类能力。

Aug, 2023

优化医学多模态对比学习：专家批注

eCLIP 是 CLIP 模型的增强版本，通过整合放射科医师眼动热图的专家注释，解决对比性多模式医学图像分析中的关键挑战，特别是数据稀缺和 “模态差异”。它通过整合热图处理器和利用稀缺的专家注释的 mixup 数据增强，提高模型的学习效果。通过多个任务的详细评估，包括零样本推理、线性探测、跨模态检索和使用冻结的大型语言模型进行检索增强生成（RAG）放射学报告，eCLIP 展示了嵌入质量的持续改进，揭示了增强的对齐性和一致性，证实了 eCLIP 在医学图像领域利用高质量注释进行丰富的多模态分析能力。

Mar, 2024

软对齐下探索低质量多模态数据中的对齐语义

使用 Gentle-CLIP 方法，通过将半监督多模态对齐转化为流形匹配问题，利用新型的语义密度分布损失、多核最大平均差异和自监督对比损失等技术实现了更少匹配对的多模态对齐，提升了表示分布的稳定性和模态间的距离，且在蛋白质、遥感和图像语言领域的多个任务上得到了验证。

Jun, 2024