通过目标提示和视觉连贯性实现通用关联图像分割

Dec, 2023

通过目标提示和视觉连贯性实现通用关联图像分割

Towards Generalizable Referring Image Segmentation via Target Prompt and Visual Coherence

Yajie Liu, Pu Ge, Haoxiang Ma, Shichao Fan, Qingjie Liu...

TL;DR提出了一种新的参考图像分割方法，通过增加明确关键提示和多模态融合聚合模块，提高了其泛化能力和处理未见过的场景的能力。

Abstract

Referring image segmentation (RIS) aims to segment objects in an image conditioning on free-from text descriptions. Despite the overwhelming progress, it still remains challenging for current approaches to perform well on cases with various text expressions or with unseen visual entiti

image segmentation referring image segmentation generalization ability unconstrained texts multi-modal fusion

发现论文，激发创造

利用文本监督进行参考图像分割

我们提出了一种新颖的弱监督引用图像分割 (RIS) 框架，通过将目标定位问题在分类过程中进行正负文本表达的区分来利用 RIS 中已有的引用文本提供的信息来定位目标物体。我们的框架具有三个主要创新点：借助双向提示方法协调视觉和语言特征之间的域差异，通过校准方法减少噪声背景信息并提高响应图的正确性，通过正响应图选择策略从增强的响应图生成高质量的伪标签，用于训练 RIS 推理的分割网络。通过在四个基准数据集上的实验证明，我们的框架在与现有的全监督 RIS 方法相当的性能的同时，优于从相关领域调整的最新弱监督方法。

Aug, 2023

参照图像分割的两阶段视觉线索增强网络

本文旨在解决参考图像分割 (RIS) 中当图像中被参考的物体视觉线索不足时，学习匹配行为变得更困难的问题，提出了一种两阶段视觉提示增强网络 (TV-Net)，可以有效增强参考物体的视觉信息，尤其是在视觉线索不足的情况下。并且通过在四个基准数据集上的实验，验证了所提出的 TV-Net 方法有效性并超越了现有技术的水平。

Oct, 2021

全局 - 局部文脈特徵的零样本指称图像分割

本文提出一种利用预训练的跨模态知识来进行零样本指代图像分割方法，在实验中，该方法优于其他零样本基线和弱监督提及表达式分割方法。

Mar, 2023

分割、选择、校正：一种用于弱监督参考分割的框架

通过解决弱监督下的参考图像分割问题，提出了一种基于零样本学习的新型弱监督框架，通过分段、选择和修正三个步骤来获得高性能，实验结果表明该方法在弱监督下达到了与全监督方法相近的性能。

Oct, 2023

弱监督参照图像分割的课程点提示

通过引用图像分割技术（RIS），本文提出了一种创新框架 Point PrompTing（PPT），并结合了多源课程学习策略来解决以往弱监督技术中面临的噪声和过度关注问题，实验证明 PPT 在 RefCOCO、RefCOCO + 和 G-Ref 上的 mIoU 分别比现有技术高出 11.34％、14.14％和 6.97％。

Apr, 2024

指代图像分割的遮罩定位

通过引入 Mask Grounding 辅助任务和跨模态对齐损失以及对应的对齐模块，提出了一种用于改善参照图像分割算法的综合方法 MagNet。该方法通过教授模型学习掩蔽文本标记与匹配的视觉对象之间的细粒度对应关系，在 RefCOCO、RefCOCO + 和 G-Ref 等三个关键基准测试中显著优于现有算法，有效地解决了当前参照图像分割算法的局限性。

Dec, 2023

MARIS: 基于共互关注特征的图像指代分割

通过引入互感关注机制来强化交叉模态融合，提出了一种新的参考图像分割方法 MARIS，借助于 Segment Anything Model (SAM)，通过两个并行分支，Vision-Guided Attention 和 Language-Guided Attention，双向建模视觉与语言特征之间的关系，并设计了一个 Mask Decoder 来实现明确的语言引导，以达到更一致的分割效果。

Nov, 2023

HARIS：用于参考图像分割的类人注意力

本文提出了一种称为 HARIS 的指代图像分割方法，引入了类似于人类的注意机制和参数高效微调框架，通过多模态特征的反馈信号使网络专注于特定对象并丢弃无关的图像 - 文本对，同时引入了参数高效微调框架以保持预训练编码器的零样本能力，实验证明该方法在三个广泛使用的 RIS 基准和 PhraseCut 数据集上取得了最先进的性能和出色的零样本能力。

May, 2024

全面多模互动用于图像分割指称

本研究提出了一种基于 Synchronous Multi-Modal Fusion Module 和 Hierarchical Cross-Modal Aggregation Module 的引用图像分割模型，并通过四个基准数据集的实验验证了其性能优于现有最先进的方法。

Apr, 2021

融合与校准：一种双向的视觉语言引导的用于指代图像分割的框架

本文介绍了 FCNet（一个使用双向引导融合方法的框架），其中视觉和语言在引导角色中相互作用，旨在解决自然语言描述与像素级细节之间的关联问题，并通过在多模态特征上进行初始融合和进一步校准，提高多模态特征的质量。实验结果表明，我们的方法在多个数据集上优于现有最先进算法。

May, 2024