InterCLIP-MEP: 多模态讽刺检测的交互式 CLIP 和增强记忆预测器
介绍了 MMSD2.0 数据集用于多模态讽刺检测问题,引入了利用多视角(文本、图像、文本图像交互视角)的多粒度线索的新框架 multi-view CLIP,实验证明 MMSD2.0 是构建可靠的多模态讽刺检测系统的有价值的基准,可以显著优于以前的最佳基准线。
Jul, 2023
本研究提出 Hate-CLIPper 架构,利用对比语言 - 图像预训练 CLIP 编码器生成的图像和文本表示通过特征交互矩阵(FIM)显式建模图像和文本之间的跨模态交互,并采用简单分类器在 Hateful Memes 挑战数据集上实现了 85.8 的 AUROC,优于人类表现。
Oct, 2022
通过训练对比图像 - 文本编码器,利用明确的评论式对提高检索结果的准确性进行了大幅改进,并且这种改进可扩展至多种非英语语言。
Sep, 2023
设计一个学习算法来处理图像和文本两个数据源,通过使用对比语言图像预训练作为特征提取器并探索不同的分类头、融合方法和损失函数来学习全面的语义特征表示,最终在公共 Kaggle 竞赛排行榜上获得超过 90% 的 F_1 分数。本文通过实验结果提供了新的训练方法和定量分析的详细描述。
Jun, 2024
该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架,通过引入多模态适配器和多任务解码器,实现强大的监督学习性能和在零样本场景中的强大泛化能力。
Jan, 2024
本篇研究提出了一种基于 CLIP 引导的对比学习的架构,用于执行多模态特征对齐,将来自不同模态的特征投影到一个统一的深度空间,实验结果表明,我们提出的模型在多模态讽刺检测和多模态情感分析任务中明显优于多个基准模型,我们的特征对齐策略相对于其他聚合方法和甚至富含知识的模型也带来了明显的性能增益,此外,我们的模型实现简单,无需使用特定任务的外部知识,因此可以轻松迁移到其他多模态任务。
Mar, 2024
在这项研究中,我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列,通过一种名为多模态增强训练的新颖且高效的训练方法,利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移,将额外的知识存储在增强数据集中而避免了训练时计算开销,从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。
Nov, 2023
eCLIP 是 CLIP 模型的增强版本,通过整合放射科医师眼动热图的专家注释,解决对比性多模式医学图像分析中的关键挑战,特别是数据稀缺和 “模态差异”。它通过整合热图处理器和利用稀缺的专家注释的 mixup 数据增强,提高模型的学习效果。通过多个任务的详细评估,包括零样本推理、线性探测、跨模态检索和使用冻结的大型语言模型进行检索增强生成(RAG)放射学报告,eCLIP 展示了嵌入质量的持续改进,揭示了增强的对齐性和一致性,证实了 eCLIP 在医学图像领域利用高质量注释进行丰富的多模态分析能力。
Mar, 2024
提出了一种名为 DialCLIP 的参数高效的提示调整方法,用于多模态对话检索,通过仅调整总参数的 0.04%实现了在两个广泛认可的基准数据集上的最新性能,突出了该方法的功效和效率,强调其推动多模态对话检索领域发展的潜力。
Jan, 2024
通过理论分析,本文提出了一种基于 CLIP 模型的多模态分布式机器学习架构下的重构攻击方法 Multm-In-Parvo (MIP),该方法可以根据软提示或适配器的梯度有效地重构 CLIP 模型的训练图像。
Feb, 2024