通过目标提示和视觉连贯性实现通用关联图像分割
我们提出了一种新颖的弱监督引用图像分割 (RIS) 框架,通过将目标定位问题在分类过程中进行正负文本表达的区分来利用 RIS 中已有的引用文本提供的信息来定位目标物体。我们的框架具有三个主要创新点:借助双向提示方法协调视觉和语言特征之间的域差异,通过校准方法减少噪声背景信息并提高响应图的正确性,通过正响应图选择策略从增强的响应图生成高质量的伪标签,用于训练 RIS 推理的分割网络。通过在四个基准数据集上的实验证明,我们的框架在与现有的全监督 RIS 方法相当的性能的同时,优于从相关领域调整的最新弱监督方法。
Aug, 2023
本文旨在解决 参考图像分割 (RIS) 中当图像中被参考的物体视觉线索不足时,学习匹配行为变得更困难的问题,提出了一种两阶段视觉提示增强网络 (TV-Net),可以有效增强参考物体的视觉信息,尤其是在视觉线索不足的情况下。并且通过在四个基准数据集上的实验,验证了所提出的 TV-Net 方法有效性并超越了现有技术的水平。
Oct, 2021
通过解决弱监督下的参考图像分割问题,提出了一种基于零样本学习的新型弱监督框架,通过分段、选择和修正三个步骤来获得高性能,实验结果表明该方法在弱监督下达到了与全监督方法相近的性能。
Oct, 2023
通过引用图像分割技术(RIS),本文提出了一种创新框架 Point PrompTing(PPT),并结合了多源课程学习策略来解决以往弱监督技术中面临的噪声和过度关注问题,实验证明 PPT 在 RefCOCO、RefCOCO + 和 G-Ref 上的 mIoU 分别比现有技术高出 11.34%、14.14%和 6.97%。
Apr, 2024
通过引入 Mask Grounding 辅助任务和跨模态对齐损失以及对应的对齐模块,提出了一种用于改善参照图像分割算法的综合方法 MagNet。该方法通过教授模型学习掩蔽文本标记与匹配的视觉对象之间的细粒度对应关系,在 RefCOCO、RefCOCO + 和 G-Ref 等三个关键基准测试中显著优于现有算法,有效地解决了当前参照图像分割算法的局限性。
Dec, 2023
通过引入互感关注机制来强化交叉模态融合,提出了一种新的参考图像分割方法 MARIS,借助于 Segment Anything Model (SAM),通过两个并行分支,Vision-Guided Attention 和 Language-Guided Attention,双向建模视觉与语言特征之间的关系,并设计了一个 Mask Decoder 来实现明确的语言引导,以达到更一致的分割效果。
Nov, 2023
本文提出了一种称为 HARIS 的指代图像分割方法,引入了类似于人类的注意机制和参数高效微调框架,通过多模态特征的反馈信号使网络专注于特定对象并丢弃无关的图像 - 文本对,同时引入了参数高效微调框架以保持预训练编码器的零样本能力,实验证明该方法在三个广泛使用的 RIS 基准和 PhraseCut 数据集上取得了最先进的性能和出色的零样本能力。
May, 2024
本研究提出了一种基于 Synchronous Multi-Modal Fusion Module 和 Hierarchical Cross-Modal Aggregation Module 的引用图像分割模型,并通过四个基准数据集的实验验证了其性能优于现有最先进的方法。
Apr, 2021
本文介绍了 FCNet(一个使用双向引导融合方法的框架),其中视觉和语言在引导角色中相互作用,旨在解决自然语言描述与像素级细节之间的关联问题,并通过在多模态特征上进行初始融合和进一步校准,提高多模态特征的质量。实验结果表明,我们的方法在多个数据集上优于现有最先进算法。
May, 2024