场景感知特征匹配
本文提出了一种新颖的特征增强网络,通过从多个特征提取级别收集空间上下文,并计算每个表示级别的注意力权重以生成最终的类别标签。该模型还学习了低分辨率下的空间上下文信息以保留场景元素之间的抽象空间关系并降低计算成本,最终的特征集合中融合了空间注意力特征,并在 ADE20K 和 Cityscapes 数据集上优于所有现有模型。
Feb, 2024
在计算机视觉领域中,特征匹配是一项至关重要的任务,先前的研究在使用基于学习的特征对比时取得了显著的性能。然而,图像之间存在的匹配冗余普遍导致这些方法中的不必要和容易出错的计算,限制了其准确性。为了解决这个问题,我们提出了 MESA,一种用于减少匹配冗余的建立精确区域匹配的新方法。MESA 首先利用 SAM 的先进图像分割模型的图像理解能力,获得具有隐含语义的图像区域。然后,提出了一个多关系图来建模这些区域的空间结构并构建它们的尺度层次结构。基于从图中得出的图形模型,将区域匹配重新定义为能量最小化任务并有效解决。大量实验证明,在室内和室外下游任务中,如室内位姿估计中的 DKM,MESA 为多点匹配器提供了显著的精度改进,例如室内位姿估计中的 + 13.61%。
Jan, 2024
本研究提出了一种多图像匹配方法以估计多个图像之间的语义对应关系,并且利用稀疏可靠特征匹配而非优化所有成对对应关系,同时还提出低秩约束来确保整个图像集上的特征一致性。该方法在多图匹配和语义流基准测试中表现优异,同时在不使用任何注释的情况下对重建对象类模型和发现对象类地标具有适用性。
Nov, 2017
本研究介绍了一种用于自动化少样本语义分割的结构化框架,利用 Segment Anything Model(SAM)模型,并借助先前引导的掩模生成粗略像素级提示,以获得更高效的语义可辨别分割结果,实验证明该方法在 DLRSD 数据集上优于其他可用的少样本方法。
Nov, 2023
本研究提出了一种基于主题建模策略来捕获图像高层次上下文信息的新型图像匹配方法,并使用池化和合并注意力模块来提高特征匹配的效率,能够在节约计算成本的同时,在具有挑战性的情况下,与最先进的方法相比保持更高的图像匹配精度。
Jul, 2023
本文介绍了一种基于面积匹配的层次型特征匹配框架:A2PM,通过先找到图像间语义区域匹配,再在区域匹配上执行点匹配,将搜索空间设置为具有显著特征的区域匹配,从而实现高匹配精度,并使用语义和几何区域匹配方法(SGAM)来建立精确无误的区域匹配。通过将 SGAM 与现有的 Transformer-based 匹配器结合使用,我们的特征匹配方法在大规模点匹配和姿态估计实验中取得了令人鼓舞的精确度改进。
Apr, 2023
本篇文章基于自动姿态提取,提出了在时尚领域中用于多标签分类的带引导注意力的紧凑框架,通过视觉语义注意力模型(VSAM)进行监督,在不使用地标注注释的情况下在 DeepFashion 数据集上取得了与之前工作相当的性能,同时还证明了我们的语义注意力模块对更多错误注释的容错性和提供更可解释结果的价值。
Nov, 2019
提出了一种新的模型,称为 AttaNet,用于在保持高效的同时捕获全局上下文和多级语义,通过 Strip Attention 模块和 Attention Fusion 模块实现低复杂度计算和加权特征融合技术,并在两个语义分割基准测试中进行了广泛的实验,取得了不同水平的速度 / 精度平衡和领先的表现。
Mar, 2021
通过使用简单而有效的适配器将特定领域信息或视觉提示集成到分割网络中,我们的实验表明,SAM-Adapter 可以显着提高 SAM 在具有挑战性的任务中的性能,并且在我们测试的任务中甚至可以胜过专门的网络模型,并达到最先进的性能:伪装目标检测和阴影检测。
Apr, 2023
提出了一种基于 Segment Anything Model (SAM) 的新框架 Geographical SAM (GeoSAM),通过使用来自零样本学习的稠密视觉提示和预训练的 CNN 分割模型的稀疏视觉提示,实现了对地理图像中的移动设施进行精细调优的策略。所提出的 GeoSAM 在地理图像分割中优于现有方法,特别是在道路基础设施、行人基础设施和平均方面分别提高了 20%、14.29% 和 17.65%,在实现对地理图像中包括道路和行人基础设施的移动设施的分割上取得了重大突破。
Nov, 2023