超越一对一：重新思考参考图像分割

ICCVAug, 2023

超越一对一：重新思考参考图像分割

Beyond One-to-One: Rethinking the Referring Image Segmentation

Yutao Hu, Qixiong Wang, Wenqi Shao, Enze Xie, Zhenguo Li...

TL;DR本文提出了一种双重多模态交互网络 (DMMI)，用于解决自然语言表达中引用图像分割的问题，并设计了一个新的挑战性但真实的数据集 Ref-ZOM，通过大量实验证明该方法在不同数据集上取得了最先进的性能，并且 Ref-ZOM 训练的模型能够良好地处理各种类型的文本输入。

Abstract

referring image segmentation aims to segment the target object referred by a natural language expression. However, previous methods rely on the strong assumption that one sentence must describe one target in the image, which is often not the case in real-world applications. As a result

referring image segmentation dual multi-modal interaction network visual feature target entity ref-zom dataset

发现论文，激发创造

MMNet：用于指代图像分割的多掩模网络

本文提出了一种端到端的多层蒙版网络 (MMNet), 旨在解决自然语言表达和图像之间数据差异的挑战。该模型使用关注机制生成多个查询，利用这些查询来产生对应的分割蒙版，最终的结果是所有蒙版的权重和，有效地减少了语言表达的随机性。结果表明，我们的方法在 RefCOCO、RefCOCO+ 和 G-Ref 三个数据集上性能优于现有的方法，无需任何后处理。

May, 2023

面向语义的动态本地化和细化，用于指代图像分割

本论文提出一种基于逐步学习区分性多模态特征的方法，通过不断更新查询作为目标对象的表示，强化与之相关的多模态特征，逐渐从定位中心转为分割中心，实现逐步修复缺失对象部分和 / 或去除多余部分，并在 RefCOCO、RefCOCO+ 和 G-Ref 数据集上的实验结果表明其优于现有方法。

Mar, 2023

用于参考图像分割的循环多模态交互

本研究探讨了自然语言描述下图像分割的问题，提出了基于卷积多模态 LSTM 编码单词、视觉和空间信息的序列交互的方法，并在基准数据集上展示出了其比基准模型更好的性能。

Mar, 2017

多模态互相关注和迭代交互用于指代图像分割

本篇论文提出了一种基于 Transformer 的多模态相互注意力机制和相互解码器，与之相结合的迭代式多模态交互机制及语言特征重建技术，在指代图像分割的任务中取得了很好的效果。

May, 2023

针对引用分割的视觉语言变换器和查询生成模型

本文针对有挑战性的指称分割任务，利用注意力机制、多头注意力、查询生成模块和查询平衡模块等技术，构建了一种轻量级的网络架构来解决任务，并在 RefCOCO、RefCOCO + 和 G-Ref 三个数据集上实现了新的最高性能。

Aug, 2021

用于压缩视频物体指代分割的多注意力网络

本文提出了在压缩视频数据流上进行指代视频目标分割任务的多关注机制网络和基于查询的跨模态 Transformer 模块，实现了使用单核心直接生成最终分割掩模的复杂后处理过程的目标，结果表明其有效性。

Jul, 2022

利用视觉感知文本特征改进指代图像分割

提出一种名为 VATEX 的新框架，通过使用视觉感知文本特征来改进指代图像分割，在复杂场景中，通过将视觉特征与文本描述相结合，使用 CLIP 来生成初始查询，然后通过上下文理解来强制执行文本变体之间的特征相似性，并保证了语言表达的一致解释。该方法在三个基准数据集 RefCOCO、RefCOCO + 和 G-Ref 上取得了显著的性能改进。

Apr, 2024

Ref-Diff: 通过生成模型实现的零样本参考图像分割

本研究提出了一种用于零样本参照图像分割的新型方法 Ref-Diff，它利用生成模型中的细粒度多模态信息，证明仅凭生成模型的性能可以与现有的 SOTA 弱监督模型相媲美，并且当将生成模型与判别模型结合时，我们的 Ref-Diff 显著优于其他方法，证明生成模型对于该任务也是有益的，可为更好的参照分割提供补充。

Aug, 2023

全局 - 局部文脈特徵的零样本指称图像分割

本文提出一种利用预训练的跨模态知识来进行零样本指代图像分割方法，在实验中，该方法优于其他零样本基线和弱监督提及表达式分割方法。

Mar, 2023

LAVT：用于参照图像分割的语言感知视觉 Transformer

本研究提出一种新的方法，在视觉 Transformer 编码器网络的中间层通过对语言和视觉特征进行交叉融合，实现更好的交叉模态对齐，进而通过轻量级的掩模预测器得到准确的分割结果，该方法在 RefCOCO、RefCOCO + 和 G-Ref 数据集上均超越了以往的最优方法。

Dec, 2021