本文提出了一种机制,可以根据待学习的新图像类别自适应地从视觉和语义两方面结合信息,通过一系列实验表明,这种自适应组合可以在所有基准和 few-shot 情景上大幅优于当前单模态学习方法和模态对齐方法,特别是在少样本的情况下。
Feb, 2019
本文探索了应用对比学习改进模态表征的方法,提出了三阶段的多视角对比学习框架,通过监督和自监督对比学习来改进单模态和融合的多模态表征,并成功提高了多模态情感分析任务的效果。
Oct, 2022
本文提出了一种通过对比学习进行多层次交叉模态特征对齐的方法,以用于遥感图像场景的零样本分类,实验结果表明该方法优于目前现有的零样本遥感图像场景分类方法。
May, 2023
本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架,用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术,包括单模态对比编码和伪孪生网络,来过滤内嵌噪声和捕获跨模态动态。此外,我们设计了两种对比学习任务,实例和基于情感的对比学习,以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明,我们的方法超过了现有的最先进方法。
通过同时利用内部数据属性和跨模态关联的语义信息,开发了一种学习视觉表示形式的方法,其中包括多种类型的对比损失,从而提高了学习到的视觉表示的质量。该方法在 COCO 数据集上进行训练,可以被用于图像分类、目标检测、实例分割等下游任务,并在 ImageNet 数据集上实现了 55.3% 的顶级验证精度。
Apr, 2021
本篇研究提出了一种基于 CLIP 引导的对比学习的架构,用于执行多模态特征对齐,将来自不同模态的特征投影到一个统一的深度空间,实验结果表明,我们提出的模型在多模态讽刺检测和多模态情感分析任务中明显优于多个基准模型,我们的特征对齐策略相对于其他聚合方法和甚至富含知识的模型也带来了明显的性能增益,此外,我们的模型实现简单,无需使用特定任务的外部知识,因此可以轻松迁移到其他多模态任务。
Mar, 2024
本文介绍了一种新的领域适应策略 - “交叉模态学习”,在无监督和半监督领域适应设置下,通过两种模式的相互模仿实现模态之间的一致性,在 3D 语义分割任务中证明了该方法的有效性
Jan, 2021
本篇研究提出了一种方法,使用特定的 loss 函数,在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同,并改进了基线模型,以实现跨模态检索。
Jul, 2020
为了解决 Vision and Language Models 对于细致的理解和 fine-grained 任务的挑战,本研究提出一种基于 intra-modal 和 cross-modal rank loss 的策略,该策略不需要额外的注释或参数,可应用于任何使用图像 - 文本对比损失训练的 VLMs。在应用于 CLIP 上时,该方法在三个细粒度基准测试上显著提高了性能,并增强了 X-VLM 在细粒度推理上的表现。
Jun, 2023
本文提出了一种自适应景观识别方法,该方法使用 RGB 和深度图像之间的自监督转换,以解决多模态数据集之间的领域转移问题,并证明其在不同相机采集的数据之间具有很强的泛化能力。
Mar, 2021