开放词汇遥感图像语义分割
计算机视觉中的目标检测和分割作为最基本的任务,在深度学习时代取得了巨大的进展。然而,由于昂贵的手动标注,现有数据集中的标注类别往往规模较小且预定义,即最先进的检测器和分割器无法推广到开放词汇之外。因此,近年来越来越多的关注集中在开放词汇检测(OVD)和分割(OVS)上。在本调研中,我们提供了对过去和最新OVD和OVS发展的全面审查。为此,我们根据任务类型和方法学开发了一个分类法。我们发现,对于不同的方法学,包括:视觉-语义空间映射、新颖的视觉特征合成、区域感知训练、伪标签、基于知识蒸馏和基于迁移学习的方法,弱监督信号的许可和使用可以很好地区分。所提出的分类法在不同任务之间是通用的,包括目标检测、语义/实例/全景分割、三维场景和视频理解。在每个类别中,详细讨论了其主要原则、关键挑战、发展路线、优点和缺点。此外,我们还对每个方法的关键组成部分进行了基准测试。最后,我们提供了一些有前途的方向,以激发未来的研究。
Jul, 2023
最近,大规模视觉语言模型(VLM)的出现,如CLIP,为开放世界的物体感知打开了道路。我们提出了一个新的任务,开放词汇伪装的物体分割(OVCOS),并构建了一个包含11,483个精选图像和细粒度注释的大规模复杂场景数据集(OVCamo)。通过集成类别语义知识的指导和依赖边缘和深度信息的视觉结构线索的补充,所提出的方法可以有效地捕捉伪装对象。此外,这个有效的框架在我们的OVCamo数据集上也超过了先前状态-of-the-art的开放词汇语义图像分割方法。借助提出的数据集和基线,我们希望这个具有更多实际价值的新任务能进一步扩展开放词汇密集预测任务的研究。
Nov, 2023
本文提出了一个针对SAM原始输出的简化框架,通过利用SGO和SGB这两个新概念,引入了新的目标损失和边界损失作为增强组件,用于提高语义分割性能。在ISPRS Vaihingen和LoveDA Urban两个知名数据集上的实验结果证明了我们方法的有效性。
Dec, 2023
使用地理坐标将无标签的遥感图像与OpenStreetMap中的丰富语义相连接,构建了一套遥感图像的综合视觉-语言数据集SkyScript,包含260万个图像-文本对,覆盖29K个不同的语义标签。通过在此数据集上进行持续预训练,我们获得了一个视觉-语言模型,相较于基准模型,在七个基准数据集上实现了6.2%的平均准确率提升,并展示了对于细粒度对象属性分类和跨模态检索的零样本迁移能力。希望该数据集可以支持遥感领域中各种多模态任务的视觉-语言模型的进展,如开放词汇分类、检索、字幕生成和文本到图像合成。
Dec, 2023
通过综合语义嵌入、稀疏支持示例和全局内容调制,我们提出了一种全新的远程感知图像少样本分割方法,该方法在标准少样本分割基准测试中显示出卓越性能,达到了最新的技术水平。
May, 2024
本研究解决了开放词汇物体检测在遥感图像中泛化能力不足的问题。通过将任务重新定义为“在地球上定位任何物体”(LAE),并开发LAE-标签引擎,创建了首个大规模的遥感物体检测数据集LAE-1M。研究表明,LAE-1M数据集和LAE-DINO模型的应用显著提升了检测性能,预计将对环境监测等领域产生重要影响。
Aug, 2024
本研究针对遥感领域在有限标注数据情况下的学习难题,提出了一个广义少样本语义分割基准。通过引入新的数据集和挑战,研究不仅促进了模型对新类的适应能力,还强调在训练基础类上的表现。研究结果表明,该广义设置更具挑战性,对遥感任务具有重要影响。
Sep, 2024
本研究解决了遥感图像在像素级解释中对大量人工标注的需求这一问题。通过提出一种简单通用的上采样方法SimFeatUp,来恢复深特征中的空间信息,并通过减法操作减小局部补丁标记的全球偏差,从而在四个遥感任务上超过了现有的最新方法,平均提高了5.8%到15.3%。
Oct, 2024
本研究针对传统RGB-T语义分割模型在多样化场景中的泛化能力不足这一问题,提出了Open-RGBT模型,结合视觉提示提升类别理解。通过利用CLIP模型来评估图像与文本的相似性,该方法在复杂场景中显示出优越表现,显著推动了RGB-T语义分割领域的发展。
Oct, 2024