全局 - 局部文脈特徵的零样本指称图像分割
通过解决弱监督下的参考图像分割问题,提出了一种基于零样本学习的新型弱监督框架,通过分段、选择和修正三个步骤来获得高性能,实验结果表明该方法在弱监督下达到了与全监督方法相近的性能。
Oct, 2023
通过引入具有文本增强的空间感知(TAS)零样本指代图像分割框架,本研究解决了零样本指代图像分割任务中的挑战,该任务旨在在没有像素级注释的情况下识别与指代表达最相关的实例掩码,并且在不同的视觉编码器上具有训练免费和鲁棒性的特点。
Oct, 2023
我们提出了一种新颖的弱监督引用图像分割 (RIS) 框架,通过将目标定位问题在分类过程中进行正负文本表达的区分来利用 RIS 中已有的引用文本提供的信息来定位目标物体。我们的框架具有三个主要创新点:借助双向提示方法协调视觉和语言特征之间的域差异,通过校准方法减少噪声背景信息并提高响应图的正确性,通过正响应图选择策略从增强的响应图生成高质量的伪标签,用于训练 RIS 推理的分割网络。通过在四个基准数据集上的实验证明,我们的框架在与现有的全监督 RIS 方法相当的性能的同时,优于从相关领域调整的最新弱监督方法。
Aug, 2023
通过引入 Mask Grounding 辅助任务和跨模态对齐损失以及对应的对齐模块,提出了一种用于改善参照图像分割算法的综合方法 MagNet。该方法通过教授模型学习掩蔽文本标记与匹配的视觉对象之间的细粒度对应关系,在 RefCOCO、RefCOCO + 和 G-Ref 等三个关键基准测试中显著优于现有算法,有效地解决了当前参照图像分割算法的局限性。
Dec, 2023
本文提出了一种基于 CLIP 的终端到终端的指代图像分割框架(CRIS),该框架采用视觉语言解码器和对比学习实现文本到像素级特征的对齐,通过在三个基准数据集上的实验结果表明,该框架的性能显著优于现有方法。
Nov, 2021
本文提出了一种基于 Contrastive Language-Image Pretraining (CLIP) 的新框架,通过 Fusion Adapters 和 Backbone Adapters 的方式对 RIS 进行有效的调整,实现了在三个重要的 RIS benchmarks 上的新的最高水平,且无需额外的预训练和数据准备。
Jun, 2023
本文提出了一种称为 HARIS 的指代图像分割方法,引入了类似于人类的注意机制和参数高效微调框架,通过多模态特征的反馈信号使网络专注于特定对象并丢弃无关的图像 - 文本对,同时引入了参数高效微调框架以保持预训练编码器的零样本能力,实验证明该方法在三个广泛使用的 RIS 基准和 PhraseCut 数据集上取得了最先进的性能和出色的零样本能力。
May, 2024
通过引入互感关注机制来强化交叉模态融合,提出了一种新的参考图像分割方法 MARIS,借助于 Segment Anything Model (SAM),通过两个并行分支,Vision-Guided Attention 和 Language-Guided Attention,双向建模视觉与语言特征之间的关系,并设计了一个 Mask Decoder 来实现明确的语言引导,以达到更一致的分割效果。
Nov, 2023
提出一种名为 VATEX 的新框架,通过使用视觉感知文本特征来改进指代图像分割,在复杂场景中,通过将视觉特征与文本描述相结合,使用 CLIP 来生成初始查询,然后通过上下文理解来强制执行文本变体之间的特征相似性,并保证了语言表达的一致解释。该方法在三个基准数据集 RefCOCO、RefCOCO + 和 G-Ref 上取得了显著的性能改进。
Apr, 2024