通过跨模态递进理解进行参考图像分割

Oct, 2020

通过跨模态递进理解进行参考图像分割

Referring Image Segmentation via Cross-Modal Progressive Comprehension

Shaofei Huang, Tianrui Hui, Si Liu, Guanbin Li, Yunchao Wei...

TL;DR该研究提出了一种基于自然语言表达的交叉模态渐进理解模块和文本引导的特征交换模块，以及基于多模态图推理来高效解决图像分割的问题，并在四个广泛应用的分割数据集中实现了最先进的性能。

Abstract

Referring image segmentation aims at segmenting the foreground masks of the entities that can well match the description given in the natural language expression. Previous approaches tackle this problem using imp

发现论文，激发创造

用于参考图像分割的循环多模态交互

本研究探讨了自然语言描述下图像分割的问题，提出了基于卷积多模态LSTM编码单词、视觉和空间信息的序列交互的方法，并在基准数据集上展示出了其比基准模型更好的性能。

Mar, 2017

用于指涉图像分割的跨模态自注意力网络

本文提出了一种跨模态自注意模块 (CMSA)，可以有效地捕捉语言和视觉特征之间的长距离依赖关系，并且采用门控多层融合模块，以选择性地集成不同级别的特征。在多个数据集上的验证表明，我们的方法在图像分割任务上显著优于现有的最先进的方法。

Apr, 2019

基于标题感知的指代表达式物体分割

本文介绍了一种通过端到端可训练的理解网络，由语言和视觉编码器组成，从语言和图像领域提取特征表示，提出了空间感知动态滤波器来转移文本到图像的知识并有效捕获指定对象的空间信息，并采用生成的字幕网络来加强语言和视觉模块之间的通信以及改进两者的表示，在两个数据集上评估了所提出的框架，并表明该方法在状态-of-the-art算法中表现良好。

Oct, 2019

基于语言结构引导的上下文建模用于指代图像分割

该研究提出了一种基于依赖解析树抑制词语图的语言结构引导的多模态上下文建模方法，通过“采集-传播-分发”方案实现跨模态交互，完善地建模了句子的多模态上下文，实验证明该方法优于以往所有最先进的方法。

Oct, 2020

全面多模互动用于图像分割指称

本研究提出了一种基于Synchronous Multi-Modal Fusion Module和Hierarchical Cross-Modal Aggregation Module的引用图像分割模型，并通过四个基准数据集的实验验证了其性能优于现有最先进的方法。

Apr, 2021

跨模态逐步理解用于区域引用的分割

本文提出了一个跨模态的渐进式理解方案，分别应用于图像和视频的参考分割中，通过使用实体，属性和关系词汇进行空间图形推理和时间图形推理来解决语言表达的主语并输出像素级掩码。

May, 2021

多模态互相关注和迭代交互用于指代图像分割

本篇论文提出了一种基于Transformer的多模态相互注意力机制和相互解码器，与之相结合的迭代式多模态交互机制及语言特征重建技术，在指代图像分割的任务中取得了很好的效果。

May, 2023

超越一对一：重新思考参考图像分割

本文提出了一种双重多模态交互网络(DMMI)，用于解决自然语言表达中引用图像分割的问题，并设计了一个新的挑战性但真实的数据集Ref-ZOM，通过大量实验证明该方法在不同数据集上取得了最先进的性能，并且Ref-ZOM训练的模型能够良好地处理各种类型的文本输入。

Aug, 2023

通过目标提示和视觉连贯性实现通用关联图像分割

提出了一种新的参考图像分割方法，通过增加明确关键提示和多模态融合聚合模块，提高了其泛化能力和处理未见过的场景的能力。

Dec, 2023

利用视觉感知文本特征改进指代图像分割

提出一种名为VATEX的新框架，通过使用视觉感知文本特征来改进指代图像分割，在复杂场景中，通过将视觉特征与文本描述相结合，使用CLIP来生成初始查询，然后通过上下文理解来强制执行文本变体之间的特征相似性，并保证了语言表达的一致解释。该方法在三个基准数据集RefCOCO、RefCOCO+和G-Ref上取得了显著的性能改进。

Apr, 2024