IFSeg:基于视觉语言模型的无图像语义分割
SemiVL 是一种结合了视觉 - 语言模型的丰富先验知识与半监督语义分割的方法,通过空间微调策略和语言引导解码器的设计,以及提供类别定义的语言指导,实现了更好的语义决策边界。在 4 个语义分割数据集上进行评估时,SemiVL 明显优于以前的半监督方法,例如,在带有 232 个已注释图像的 COCO 上,mIoU 提高了 + 13.5,在带有 92 个标签的 Pascal VOC 上,mIoU 提高了 + 6.1。
Nov, 2023
通过提出自主引导的语义分割(Self-Seg)框架和基于 LLM 的开放式词汇评估器(LOVE),在不需要提供类别名称的情况下,实现了开放式词汇分割的最新成果,并与提供类别名称的方法相竞争,取得了 Pascal VOC、ADE20K 和 CityScapes 的最具竞争力的结果。
Dec, 2023
该论文介绍了一种使用预训练的图像 - 语言模型进行零样本学习的语义分割方法,将预训练模型中的视觉概念知识转化为分割区域的语义信息表示(即 segment tokens)并应用于视觉语义分割任务中。实验结果表明,该方法在多个公共基准数据集上可以达到与有监督训练方法相竞争的效果。
Jun, 2023
本研究提出了一种基于视觉 - 语言模型的视觉语义分割方法,通过在源领域进行训练并在未见目标领域进行评估,提高了领域通用性。实验证明,该方法在域通用分割中的性能优于传统的视觉训练方法,取得了 7.6% mIoU 的提升。同时,在主流数据集上取得了 76.48% mIoU 的性能,超过了此前最优方法 6.9% mIoU 的水平。还表明该方法在领域内具有强大的泛化能力,并在当前排行榜上与最优方法并列第一。
Dec, 2023
本文提出了一种基于图像文本交互的语义分割模型 ViL-Seg,通过无需密集标注的方式,利用网络上自然存在的图像和文本数据,学习到能够直接分割任意开放世界类别对象的能力,实验结果在三个基准数据集上优于需要数据标注的零样本分割方法。
Jul, 2022
通过大规模视觉 - 语言模型,我们提出了一种简单但非常有效的无需训练的技术,Plug-and-Play 开放词汇语义分割(PnP-OVSS),并通过 Salience Dropout 技术实现了与现有技术相比的显着改善。
Nov, 2023
通过语言信息进行语言指导的少样本语义分割,使用视觉 - 语言预训练模型和遮罩优化来生成高质量伪语义遮罩,引入分布式原型监督方法和互补相关匹配模块来指导模型挖掘支持和查询图像的精确语义关系。在两个基准数据集上的实验表明,我们的方法为语言指导的少样本语义分割建立了新的基准,并达到了与最近的视觉指导方法竞争的结果。
Nov, 2023
本文提出了 Fusioner 方法,将自然语言和视觉特征融合用于零样本学习,且通过在多个自监督模型上进行实验展示了 Fusioner 的普适性。实验结果表明该方法表现优异且鲁棒性强。
Oct, 2022
本文提出了一种基于自然语言监督和预训练模型的 FreeSeg 框架,用于开放世界分割任务。它通过 Image-Text Similarity Map(ITSM)获得自由掩码以进行语义分割,而不需要像传统方式一样像素级别的标注。该方法采用了平滑最小池化,局部标签和像素策略等关键技术,使性能超越当前先进水平。
Sep, 2022
用视觉引导的分割和评估方法将少样本图像分类和分割问题转化为视觉问答问题,利用视觉语言模型以无需训练的方式进行解决,并通过交互式学习和模块化框架达到最先进的性能。
Mar, 2024