CLIP 多模态哈希:一个新的基准 CLIPMH
设计一个学习算法来处理图像和文本两个数据源,通过使用对比语言图像预训练作为特征提取器并探索不同的分类头、融合方法和损失函数来学习全面的语义特征表示,最终在公共 Kaggle 竞赛排行榜上获得超过 90% 的 F_1 分数。本文通过实验结果提供了新的训练方法和定量分析的详细描述。
Jun, 2024
通过利用多模态模型中预训练知识和创新的显著性池化技术,我们在视频亮点检测任务中通过简单微调多模态编码器达到了最先进的性能,对于 QVHighlight 基准测试而言,可获得最佳表现。
Apr, 2024
CLIP 模型是基于文本查询的图像检索的重要进展,通过在大规模数据集上进行训练获得显著的泛化能力,实现了图像和文本的跨模态理解,促进了自然语言理解和计算机视觉的无缝集成,为多媒体应用中的信息检索提供了强大的工具。
Jan, 2024
本研究提出 Hate-CLIPper 架构,利用对比语言 - 图像预训练 CLIP 编码器生成的图像和文本表示通过特征交互矩阵(FIM)显式建模图像和文本之间的跨模态交互,并采用简单分类器在 Hateful Memes 挑战数据集上实现了 85.8 的 AUROC,优于人类表现。
Oct, 2022
本研究提出了 CLIPTrans 框架,通过简单地调整预训练的多模态 M-CLIP 和多语言 mBART 模型,使它们的嵌入空间对齐,并通过轻量级映射网络对 mBART 进行条件化。实验证明该框架的优点,并将标准基准提升了平均 2.67 个 BLEU 值。
Aug, 2023
提出了一种名为 DialCLIP 的参数高效的提示调整方法,用于多模态对话检索,通过仅调整总参数的 0.04%实现了在两个广泛认可的基准数据集上的最新性能,突出了该方法的功效和效率,强调其推动多模态对话检索领域发展的潜力。
Jan, 2024
通过跨模态引导和模态置信度集成,X-MoRe 方法利用 CLIP 的跨模态表示能力,从外部图文对数据集中检索相关的文本信息,并通过赋予可靠性更高的模态对最终预测产生贡献,从而在多样化的任务中展示了稳健的性能,充分发挥了 CLIP 的零样本分类能力。
Aug, 2023
eCLIP 是 CLIP 模型的增强版本,通过整合放射科医师眼动热图的专家注释,解决对比性多模式医学图像分析中的关键挑战,特别是数据稀缺和 “模态差异”。它通过整合热图处理器和利用稀缺的专家注释的 mixup 数据增强,提高模型的学习效果。通过多个任务的详细评估,包括零样本推理、线性探测、跨模态检索和使用冻结的大型语言模型进行检索增强生成(RAG)放射学报告,eCLIP 展示了嵌入质量的持续改进,揭示了增强的对齐性和一致性,证实了 eCLIP 在医学图像领域利用高质量注释进行丰富的多模态分析能力。
Mar, 2024
使用 Gentle-CLIP 方法,通过将半监督多模态对齐转化为流形匹配问题,利用新型的语义密度分布损失、多核最大平均差异和自监督对比损失等技术实现了更少匹配对的多模态对齐,提升了表示分布的稳定性和模态间的距离,且在蛋白质、遥感和图像语言领域的多个任务上得到了验证。
Jun, 2024