用于指涉图像分割的跨模态自注意力网络

CVPRApr, 2019

用于指涉图像分割的跨模态自注意力网络

Cross-Modal Self-Attention Network for Referring Image Segmentation

Linwei Ye, Mrigank Rochan, Zhi Liu, Yang Wang

TL;DR本文提出了一种跨模态自注意模块 (CMSA)，可以有效地捕捉语言和视觉特征之间的长距离依赖关系，并且采用门控多层融合模块，以选择性地集成不同级别的特征。在多个数据集上的验证表明，我们的方法在图像分割任务上显著优于现有的最先进的方法。

Abstract

We consider the problem of referring image segmentation. Given an input image and a natural language expression, the goal is to segment the object referred by the language expression in the image. Existing works in this area treat the language expression and the input image separately

referring image segmentation cross-modal self-attention long-range dependencies gated multi-level fusion state-of-the-art methods

发现论文，激发创造

MMNet：用于指代图像分割的多掩模网络

本文提出了一种端到端的多层蒙版网络 (MMNet), 旨在解决自然语言表达和图像之间数据差异的挑战。该模型使用关注机制生成多个查询，利用这些查询来产生对应的分割蒙版，最终的结果是所有蒙版的权重和，有效地减少了语言表达的随机性。结果表明，我们的方法在 RefCOCO、RefCOCO+ 和 G-Ref 三个数据集上性能优于现有的方法，无需任何后处理。

May, 2023

面向语义的动态本地化和细化，用于指代图像分割

本论文提出一种基于逐步学习区分性多模态特征的方法，通过不断更新查询作为目标对象的表示，强化与之相关的多模态特征，逐渐从定位中心转为分割中心，实现逐步修复缺失对象部分和 / 或去除多余部分，并在 RefCOCO、RefCOCO+ 和 G-Ref 数据集上的实验结果表明其优于现有方法。

Mar, 2023

MARIS: 基于共互关注特征的图像指代分割

通过引入互感关注机制来强化交叉模态融合，提出了一种新的参考图像分割方法 MARIS，借助于 Segment Anything Model (SAM)，通过两个并行分支，Vision-Guided Attention 和 Language-Guided Attention，双向建模视觉与语言特征之间的关系，并设计了一个 Mask Decoder 来实现明确的语言引导，以达到更一致的分割效果。

Nov, 2023

用于压缩视频物体指代分割的多注意力网络

本文提出了在压缩视频数据流上进行指代视频目标分割任务的多关注机制网络和基于查询的跨模态 Transformer 模块，实现了使用单核心直接生成最终分割掩模的复杂后处理过程的目标，结果表明其有效性。

Jul, 2022

多模态互相关注和迭代交互用于指代图像分割

本篇论文提出了一种基于 Transformer 的多模态相互注意力机制和相互解码器，与之相结合的迭代式多模态交互机制及语言特征重建技术，在指代图像分割的任务中取得了很好的效果。

May, 2023

LAVT：用于参照图像分割的语言感知视觉 Transformer

本研究提出一种新的方法，在视觉 Transformer 编码器网络的中间层通过对语言和视觉特征进行交叉融合，实现更好的交叉模态对齐，进而通过轻量级的掩模预测器得到准确的分割结果，该方法在 RefCOCO、RefCOCO + 和 G-Ref 数据集上均超越了以往的最优方法。

Dec, 2021

通过跨模态递进理解进行参考图像分割

该研究提出了一种基于自然语言表达的交叉模态渐进理解模块和文本引导的特征交换模块，以及基于多模态图推理来高效解决图像分割的问题，并在四个广泛应用的分割数据集中实现了最先进的性能。

Oct, 2020

用于参考图像分割的循环多模态交互

本研究探讨了自然语言描述下图像分割的问题，提出了基于卷积多模态 LSTM 编码单词、视觉和空间信息的序列交互的方法，并在基准数据集上展示出了其比基准模型更好的性能。

Mar, 2017

编码器融合网络和协同关注嵌入用于参照图像分割

本论文提出了一种图像分割方法，即采用编码器融合网络（EFN）将视觉编码器转换为多模态特征学习网络，利用语言逐步优化多模态特征；在 EFN 中嵌入了协同注意机制，使得多模态特征的平行更新更具协同性，同时提出了边界增强模块（BEM）来增强网络对细节的关注，在四个基准数据集上的实验结果表明所提出的方法在不同的评价指标下均取得了最先进的性能，且无需后处理。

May, 2021

针对引用分割的视觉语言变换器和查询生成模型

本文针对有挑战性的指称分割任务，利用注意力机制、多头注意力、查询生成模块和查询平衡模块等技术，构建了一种轻量级的网络架构来解决任务，并在 RefCOCO、RefCOCO + 和 G-Ref 三个数据集上实现了新的最高性能。

Aug, 2021