基于对比学习的多层交叉模态特征对齐,用于遥感图像场景的零样本分类
通过鲁棒的微调与跨模态对齐,本研究提出了一种方法,旨在将 RS(Remote Sensing)图像模态与 CLIP 的视觉和文本模态对齐,从而在 RS 图像分类和跨模态检索任务中获得显著的性能提升。
Feb, 2024
我们通过机器自动收集可视属性,并利用转换器中的自注意机制将局部图像区域关联起来,集成背景上下文信息进行预测,以解决远程感知场景分类中的零样本学习问题。通过广泛实验,我们展示了我们的模型在具有挑战性的大规模远程感知场景分类基准上优于其他最先进模型。
Feb, 2024
本篇研究提出了一种基于 CLIP 引导的对比学习的架构,用于执行多模态特征对齐,将来自不同模态的特征投影到一个统一的深度空间,实验结果表明,我们提出的模型在多模态讽刺检测和多模态情感分析任务中明显优于多个基准模型,我们的特征对齐策略相对于其他聚合方法和甚至富含知识的模型也带来了明显的性能增益,此外,我们的模型实现简单,无需使用特定任务的外部知识,因此可以轻松迁移到其他多模态任务。
Mar, 2024
通过多模态图像数据,采用监督的多模态对比学习方法,增加学习到的多模态特征空间的语义可辨别性,从而提高对黑暗场景的理解。实验证明该方法能够有效增强基于有限语义的多模态图像的语义区分特征空间,并展示了其与先前方法相比的卓越性能。
Aug, 2023
远程感知图像的语义分割是远程感知图像解释中的重要问题。目前已经取得了显著的进展,虽然现有的深度神经网络方法在依赖大量训练数据方面存在问题。少样本远程感知语义分割旨在仅使用少量标注的目标类别支持图像从查询图像中学习分割目标对象。然而,现有的少样本学习方法主要集中在从支持图像中提取信息,未能有效解决地理对象外观和尺度的大差异。为了解决这些挑战,我们提出了一种自相关和交叉相关学习网络,用于少样本远程感知图像语义分割。我们的模型通过考虑支持图像和查询图像之间的自相关和交叉相关来增强泛化性能。为了进一步探索与查询图像的自相关性,我们提出采用经典的频谱方法,基于图像的基本视觉信息生成一个类别无关的分割掩模。在两个远程感知图像数据集上进行了大量实验,证明了我们的模型在少样本远程感知图像语义分割中的有效性和优越性。代码和模型可以在此 URL 中访问。
Sep, 2023
本文提出了一种机制,可以根据待学习的新图像类别自适应地从视觉和语义两方面结合信息,通过一系列实验表明,这种自适应组合可以在所有基准和 few-shot 情景上大幅优于当前单模态学习方法和模态对齐方法,特别是在少样本的情况下。
Feb, 2019
通过使用 Cross-MoST 优化框架,结合 CLIP 等 2D 视觉语言模型,可以提高无需标签的零样本 3D 视觉模型的分类性能,并且实现图像和点云模态之间的跨模态知识交流。
Apr, 2024
本文提出了一种 MCSC 框架,联合训练 CNN 和 Transformer 模型,并采用多尺度交叉监督对比学习来对医学图像进行结构分割。实验证明,该方法在 Dice 系数上比现有的半监督方法提高了 3.0% 以上,并且大大缩小了与全监督方法之间的性能差距。
Jun, 2023
我們提出了一種多層次跨模態對齊方法,通過在三個層次(即實例級別、原型級別和語義級別)建立一個更小但更好的語義空間,對跨模態預訓練模型中的對齊進行改進,以提高下游任務的性能。實驗結果清楚地表明了我們新方法的優越性。
Jan, 2024