对比多模态观测理解暗色场景

Aug, 2023

Understanding Dark Scenes by Contrasting Multi-Modal Observations

Xiaoyu Dong, Naoto Yokoya

TL;DR通过多模态图像数据，采用监督的多模态对比学习方法，增加学习到的多模态特征空间的语义可辨别性，从而提高对黑暗场景的理解。实验证明该方法能够有效增强基于有限语义的多模态图像的语义区分特征空间，并展示了其与先前方法相比的卓越性能。

Abstract

Understanding dark scenes based on multi-modal image data is challenging, as both the visible and auxiliary modalities provide limited semantic i

dark scenes multi-modal image data contrastive learning semantic information class correlations

发现论文，激发创造

自适应交叉模态少样本学习

本文提出了一种机制，可以根据待学习的新图像类别自适应地从视觉和语义两方面结合信息，通过一系列实验表明，这种自适应组合可以在所有基准和 few-shot 情景上大幅优于当前单模态学习方法和模态对齐方法，特别是在少样本的情况下。

Feb, 2019

基于多视角对比学习提升情感分析中形式表征

本文探索了应用对比学习改进模态表征的方法，提出了三阶段的多视角对比学习框架，通过监督和自监督对比学习来改进单模态和融合的多模态表征，并成功提高了多模态情感分析任务的效果。

Oct, 2022

基于对比学习的多层交叉模态特征对齐，用于遥感图像场景的零样本分类

本文提出了一种通过对比学习进行多层次交叉模态特征对齐的方法，以用于遥感图像场景的零样本分类，实验结果表明该方法优于目前现有的零样本遥感图像场景分类方法。

May, 2023

多模态情感分析中的单模编码和跨模态预测的多模态对比学习

本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架，用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术，包括单模态对比编码和伪孪生网络，来过滤内嵌噪声和捕获跨模态动态。此外，我们设计了两种对比学习任务，实例和基于情感的对比学习，以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明，我们的方法超过了现有的最先进方法。

Oct, 2022

视觉表征学习的多模态对比训练

通过同时利用内部数据属性和跨模态关联的语义信息，开发了一种学习视觉表示形式的方法，其中包括多种类型的对比损失，从而提高了学习到的视觉表示的质量。该方法在 COCO 数据集上进行训练，可以被用于图像分类、目标检测、实例分割等下游任务，并在 ImageNet 数据集上实现了 55.3% 的顶级验证精度。

Apr, 2021

多模态语义理解与对比跨模态特征对齐

本篇研究提出了一种基于 CLIP 引导的对比学习的架构，用于执行多模态特征对齐，将来自不同模态的特征投影到一个统一的深度空间，实验结果表明，我们提出的模型在多模态讽刺检测和多模态情感分析任务中明显优于多个基准模型，我们的特征对齐策略相对于其他聚合方法和甚至富含知识的模型也带来了明显的性能增益，此外，我们的模型实现简单，无需使用特定任务的外部知识，因此可以轻松迁移到其他多模态任务。

Mar, 2024

基于交叉模态学习的三维语义分割领域自适应

本文介绍了一种新的领域适应策略 - “交叉模态学习”，在无监督和半监督领域适应设置下，通过两种模式的相互模仿实现模态之间的一致性，在 3D 语义分割任务中证明了该方法的有效性

Jan, 2021

保持语义领域对稳健跨模态检索的影响

本篇研究提出了一种方法，使用特定的 loss 函数，在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同，并改进了基线模型，以实现跨模态检索。

Jul, 2020

对比视觉语言细粒度理解中的同模态句式和排名跨模态硬负例

为了解决 Vision and Language Models 对于细致的理解和 fine-grained 任务的挑战，本研究提出一种基于 intra-modal 和 cross-modal rank loss 的策略，该策略不需要额外的注释或参数，可应用于任何使用图像 - 文本对比损失训练的 VLMs。在应用于 CLIP 上时，该方法在三个细粒度基准测试上显著提高了性能，并增强了 X-VLM 在细粒度推理上的表现。

Jun, 2023

跨域多模态 RGB-D 场景识别

本文提出了一种自适应景观识别方法，该方法使用 RGB 和深度图像之间的自监督转换，以解决多模态数据集之间的领域转移问题，并证明其在不同相机采集的数据之间具有很强的泛化能力。

Mar, 2021