破碎和聚集：利用文本监督学习参考图像分割

ICCVAug, 2023

破碎和聚集：利用文本监督学习参考图像分割

Shatter and Gather: Learning Referring Image Segmentation with Text Supervision

Dongwon Kim, Namyup Kim, Cuiling Lan, Suha Kwak

TL;DR在此研究中，我们使用弱监督学习方法，利用训练图像的文本描述作为唯一的监督来源，解决了训练数据标记成本高昂的问题，并提出了一种新模型来发现输入图像中的语义实体，并组合与文本查询相关的实体来预测指代物的掩码。我们还提出了一种新的损失函数，使得模型可以在没有进一步监督的情况下进行训练。我们的方法在四个公共基准数据集上进行了评估，明显优于相同任务的现有方法和最近的开放词汇分割模型。

Abstract

referring image segmentation, the task of segmenting any arbitrary entities described in free-form texts, opens up a variety of vision applications. However, manual labeling of training data for this task is prohibitively costly, leading to lack of labeled data for training. We address

referring image segmentation weakly supervised learning semantic entities text query loss function

发现论文，激发创造

指称表达的弱监督分割

本文提出基于 Transformer 模型的弱监督语义图像分割方法 Text Grounded Semantic Segmentation (TSEG)，通过学习从图像级别的文本语句直接生成分割掩模，实现了从提及的表达式中进行图像分割，实验结果表明在 PhraseCut 和 RefCOCO 数据集上 TSEG 表现出了很好的弱监督语义分割效果，并且在 Pascal VOC 数据集的无监督语义分割任务中也具有很强的竞争力。

May, 2022

利用大规模视觉和文本数据集进行指称表达式的图像分割

本文提出了一种利用现有大规模视觉和文本数据集进行基于语言的图像分割模型训练的方法，并证明该方法可以帮助实现该任务并优于以前的结果。

Aug, 2016

利用视觉感知文本特征改进指代图像分割

提出一种名为 VATEX 的新框架，通过使用视觉感知文本特征来改进指代图像分割，在复杂场景中，通过将视觉特征与文本描述相结合，使用 CLIP 来生成初始查询，然后通过上下文理解来强制执行文本变体之间的特征相似性，并保证了语言表达的一致解释。该方法在三个基准数据集 RefCOCO、RefCOCO + 和 G-Ref 上取得了显著的性能改进。

Apr, 2024

利用文本监督进行参考图像分割

我们提出了一种新颖的弱监督引用图像分割 (RIS) 框架，通过将目标定位问题在分类过程中进行正负文本表达的区分来利用 RIS 中已有的引用文本提供的信息来定位目标物体。我们的框架具有三个主要创新点：借助双向提示方法协调视觉和语言特征之间的域差异，通过校准方法减少噪声背景信息并提高响应图的正确性，通过正响应图选择策略从增强的响应图生成高质量的伪标签，用于训练 RIS 推理的分割网络。通过在四个基准数据集上的实验证明，我们的框架在与现有的全监督 RIS 方法相当的性能的同时，优于从相关领域调整的最新弱监督方法。

Aug, 2023

文本增强的空间感知零样本指代图像分割

通过引入具有文本增强的空间感知（TAS）零样本指代图像分割框架，本研究解决了零样本指代图像分割任务中的挑战，该任务旨在在没有像素级注释的情况下识别与指代表达最相关的实例掩码，并且在不同的视觉编码器上具有训练免费和鲁棒性的特点。

Oct, 2023

超越一对一：重新思考参考图像分割

本文提出了一种双重多模态交互网络 (DMMI)，用于解决自然语言表达中引用图像分割的问题，并设计了一个新的挑战性但真实的数据集 Ref-ZOM，通过大量实验证明该方法在不同数据集上取得了最先进的性能，并且 Ref-ZOM 训练的模型能够良好地处理各种类型的文本输入。

Aug, 2023

分割、选择、校正：一种用于弱监督参考分割的框架

通过解决弱监督下的参考图像分割问题，提出了一种基于零样本学习的新型弱监督框架，通过分段、选择和修正三个步骤来获得高性能，实验结果表明该方法在弱监督下达到了与全监督方法相近的性能。

Oct, 2023

基于参考的医学语义分割伪标签生成

提出了一种半监督分割的新方法，使用少量标记数据和对未标记图片与参考像素匹配的方式生成分割标记，可以减少标记工作量，提高现有方法的性能和鲁棒性。

Dec, 2021

无配对掩码 - 文本监督下的开放词汇分割

使用独立的图像 - 蒙版和图像 - 文本对，利用不配对的蒙版 - 文本监督，提出了一种新的弱监督开放词汇分割框架 (Uni-OVSeg)，通过利用自信的蒙版预测和文本描述中的实体，在 CLIP 嵌入空间中关联一组二进制蒙版和实体，采用大型视觉 - 语言模型 (LVLM) 对文本进行精炼，设计多尺度集成以稳定蒙版和实体之间的匹配，相较于仅使用文本进行弱监督的方法，在 ADE20K 数据集上实现了 15.5% mIoU 的显著改进，在具有挑战性的 PASCAL Context-459 数据集上甚至超过了完全监督的方法。

Feb, 2024

基于语义先验精细调整的弱监督视觉 - 文本链接

论文提出了一种基于弱化监督的视觉文本对齐模型 SPRM，通过组合输出的两个模块的预测结果学习文本短语和边界框之间的对应关系，达到了最先进的实验效果，并且在使用少量训练样例时也具有竞争性能。

May, 2023