零样本遥感图像场景分类的深度语义视觉对齐
研究了一种基于卷积神经网络的零迁移学习模型,该模型利用辅助信息学习一种兼容性函数,实现对未看到类别的识别,并对通过多种辅助信息对新数据集进行了实验验证。
Dec, 2017
本文提出了多种不同的零样本学习的算法,包括基于语义属性生成可视特征分类器的深度神经网络,以及一种能够使用未标记数据进行自校准的学习方法,并在所有ZSL设置的基准数据集上显著优于现有算法的大量实验结果表明。
Sep, 2019
本文提出了一种利用本地特征将未见类别映射到语义属性的区域语义对齐网络(RSAN)方法,使得将所学类别的知识成功地以区域方式传递给未见类别,并通过语义知识对图像编码器进行属性回归以提取稳健和属性相关的视觉特征,对多个标准ZSL数据集的实验验证了该方法的优点,超过了最先进的方法。
Oct, 2021
本论文提出了一种基于Transformer的DUET方法,通过自我监督的多模态学习范式,整合了预训练语言模型(PLMs)的潜在语义知识,实现零样本学习并取得了最先进的性能表现。
Jul, 2022
本文提出了一种新的图像条件提示学习策略APPLeNet,强调RS场景分类中多尺度特征学习的重要性,并为域泛化任务展开视觉风格和内容基元的区分,生成视觉令牌进行注意力驱动注入。验证表明,APPLeNet在四个可用的RS基准测试上 consistently outperform了相关文献。
Apr, 2023
本文提出了一种通过对比学习进行多层次交叉模态特征对齐的方法,以用于遥感图像场景的零样本分类,实验结果表明该方法优于目前现有的零样本遥感图像场景分类方法。
May, 2023
我们提出了一种基于视觉语言模型训练遥感图像的方法,无需使用任何文本注释。我们的关键洞察力是使用地面上的互联网图像作为遥感图像和语言之间的中介。通过使用大量的配对互联网和卫星图像,我们训练了遥感图像的图像编码器与CLIP的图像编码器对齐。我们的无监督方法使得能够训练一种新型的大规模遥感图像视觉语言模型(VLM),适用于两种不同分辨率的遥感图像。我们展示了这些VLM在卫星图像的零样本、开放词汇的图像分类、检索、分割和视觉问答任务中的能力。我们的无需文本注释的VLM在这些任务的每个方面都优于现有有监督训练的VLM,分类任务上最高提升了20%,分割任务上提升了80%。
Dec, 2023
通过使用大型语言模型(LLMs)生成的类别描述和丰富的细粒度图像分类数据集,我们提出了一种方法来改善视觉-语言模型(VLMs)在细粒度领域的零样本分类性能。通过在训练过程中利用图像-文本监督,我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了4-5%。地理先验也被证明对于改善零样本分类同样有效,与视觉特征互补。我们计划发布包含7个数据集的基准测试,以促进未来的零样本识别研究。
Jan, 2024
通过综合语义嵌入、稀疏支持示例和全局内容调制,我们提出了一种全新的远程感知图像少样本分割方法,该方法在标准少样本分割基准测试中显示出卓越性能,达到了最新的技术水平。
May, 2024
本文解决了传统零样本场景分类中,遥感视觉-语言模型通过对大图像分割成小patch而忽略上下文信息的问题。我们提出了一种新方法,利用基于文本提示的初步预测和图像编码器的patch关联关系,以增强零样本分类的能力,实验结果显示在10个遥感数据集上相较于传统方法实现了显著的准确率提升。
Sep, 2024