开放词汇RGB-T零样本语义分割在开放世界环境中的应用
本文提出了一种基于图像文本交互的语义分割模型ViL-Seg,通过无需密集标注的方式,利用网络上自然存在的图像和文本数据,学习到能够直接分割任意开放世界类别对象的能力,实验结果在三个基准数据集上优于需要数据标注的零样本分割方法。
Jul, 2022
该论文提出了一种针对开放词汇的语义分割方法,即通过预训练模型再特定训练样本上的微调和修正,来解决预训练模型在遮蔽图像上的效果问题,从而提高模型的泛化能力,并通过遮蔽抽取方法有效地提高了语义分割的效果。
Oct, 2022
本文提出了Fusioner方法,将自然语言和视觉特征融合用于零样本学习,且通过在多个自监督模型上进行实验展示了Fusioner的普适性。实验结果表明该方法表现优异且鲁棒性强。
Oct, 2022
该论文介绍了一种使用预训练的图像-语言模型进行零样本学习的语义分割方法,将预训练模型中的视觉概念知识转化为分割区域的语义信息表示(即segment tokens)并应用于视觉语义分割任务中。实验结果表明,该方法在多个公共基准数据集上可以达到与有监督训练方法相竞争的效果。
Jun, 2023
本文综述了开放式词汇学习的最新动态,强调了其与零样本学习、开放集识别和超出分布检测等相关概念的比较,并详细讨论了检测和分割等视觉场景理解任务下的具体应用。研究发现,开放式词汇学习方法在实践中更具广泛性、有效性和实用性,未来仍有许多探索余地。
Jun, 2023
计算机视觉中的目标检测和分割作为最基本的任务,在深度学习时代取得了巨大的进展。然而,由于昂贵的手动标注,现有数据集中的标注类别往往规模较小且预定义,即最先进的检测器和分割器无法推广到开放词汇之外。因此,近年来越来越多的关注集中在开放词汇检测(OVD)和分割(OVS)上。在本调研中,我们提供了对过去和最新OVD和OVS发展的全面审查。为此,我们根据任务类型和方法学开发了一个分类法。我们发现,对于不同的方法学,包括:视觉-语义空间映射、新颖的视觉特征合成、区域感知训练、伪标签、基于知识蒸馏和基于迁移学习的方法,弱监督信号的许可和使用可以很好地区分。所提出的分类法在不同任务之间是通用的,包括目标检测、语义/实例/全景分割、三维场景和视频理解。在每个类别中,详细讨论了其主要原则、关键挑战、发展路线、优点和缺点。此外,我们还对每个方法的关键组成部分进行了基准测试。最后,我们提供了一些有前途的方向,以激发未来的研究。
Jul, 2023
最近,大规模视觉语言模型(VLM)的出现,如CLIP,为开放世界的物体感知打开了道路。我们提出了一个新的任务,开放词汇伪装的物体分割(OVCOS),并构建了一个包含11,483个精选图像和细粒度注释的大规模复杂场景数据集(OVCamo)。通过集成类别语义知识的指导和依赖边缘和深度信息的视觉结构线索的补充,所提出的方法可以有效地捕捉伪装对象。此外,这个有效的框架在我们的OVCamo数据集上也超过了先前状态-of-the-art的开放词汇语义图像分割方法。借助提出的数据集和基线,我们希望这个具有更多实际价值的新任务能进一步扩展开放词汇密集预测任务的研究。
Nov, 2023
通过大规模视觉-语言模型,我们提出了一种简单但非常有效的无需训练的技术,Plug-and-Play开放词汇语义分割(PnP-OVSS),并通过Salience Dropout技术实现了与现有技术相比的显着改善。
Nov, 2023
通过使用冻结的仅包含视觉信息的模型和融合离散文本和语言知识的方式,我们提出了SimZSS,一种用于开放性词汇的零样本分割的简单框架。在仅使用图像-标题对数据集进行训练的情况下,我们的方法利用了视觉表示的质量,并在不到15分钟的时间内在8个基准数据集中的7个上实现了最先进的结果。
Jun, 2024
该研究解决了开放词汇语义分割中低分辨率特征导致的细节缺失问题。提出了一种名为MROVSeg的多分辨率训练框架,利用滑动窗口技术对高分辨率输入进行处理,并通过多粒度遮蔽注意机制实现精确分割。实验证明,该方法在高分辨率输入下的表现优于现有方法,为开放词汇语义分割设立了新标准。
Aug, 2024