LAVT：用于参照图像分割的语言感知视觉 Transformer

CVPRDec, 2021

LAVT：用于参照图像分割的语言感知视觉 Transformer

LAVT: Language-Aware Vision Transformer for Referring Image Segmentation

Zhao Yang, Jiaqi Wang, Yansong Tang, Kai Chen, Hengshuang Zhao...

TL;DR本研究提出一种新的方法，在视觉 Transformer 编码器网络的中间层通过对语言和视觉特征进行交叉融合，实现更好的交叉模态对齐，进而通过轻量级的掩模预测器得到准确的分割结果，该方法在 RefCOCO、RefCOCO + 和 G-Ref 数据集上均超越了以往的最优方法。

Abstract

referring image segmentation is a fundamental vision-language task that aims to segment out an object referred to by a natural language expression from an image. One of the key challenges behind this task is leveraging the referring expression for highlighting relevant positions in the

referring image segmentation cross-modal fusion transformers multi-modal context mask predictor

发现论文，激发创造

VLT: 面向参考分割的视觉语言变换器和查询生成

该研究提出了一种轻量级的视觉 - 语言 Transformer 框架来实现引用分割，其中包括 Query Generation Module，Query Balance Module 以及 masked contrastive learning，它们能够动态生成多个特定于输入的查询，以明晰理解语言表达的多样性，同时针对不同的语言表达方式进行了明确的跨样本学习。该框架在五个数据集上都实现了最新的引用分割成果。

Oct, 2022

针对引用分割的视觉语言变换器和查询生成模型

本文针对有挑战性的指称分割任务，利用注意力机制、多头注意力、查询生成模块和查询平衡模块等技术，构建了一种轻量级的网络架构来解决任务，并在 RefCOCO、RefCOCO + 和 G-Ref 三个数据集上实现了新的最高性能。

Aug, 2021

定位并分割：一个强大的指示物图像分割流水线

本文从 “定位 - 再分割”（LTS）的视角来看待指涉图像分割任务，并提出了一个简单有效的方法，通过提取和融合视觉和文本特征，然后在视觉 - 文本特征之间应用交互，定位被指涉的对象，并使用轻量级分割网络生成分割结果。通过可视化实验，证明该模型更易于解释和理解，且在三个流行数据集上超过以往最先进方法，是指涉图像分割的一个强有力的基准。

Mar, 2021

EAVL：明确对齐视觉与语言以实现图像引用分割

通过显式对齐视觉和语言特征，我们提出了针对指代图像分割的显式对齐视觉和语言的方法（EAVL），该方法通过生成多个查询并将其转换为一系列基于查询的卷积核，在分割阶段对齐语言和视觉特征，以实现与语言相关的定位，并在 RefCOCO，RefCOCO + 和 G-Ref 上超过了之前最先进的方法。

Aug, 2023

利用视觉感知文本特征改进指代图像分割

提出一种名为 VATEX 的新框架，通过使用视觉感知文本特征来改进指代图像分割，在复杂场景中，通过将视觉特征与文本描述相结合，使用 CLIP 来生成初始查询，然后通过上下文理解来强制执行文本变体之间的特征相似性，并保证了语言表达的一致解释。该方法在三个基准数据集 RefCOCO、RefCOCO + 和 G-Ref 上取得了显著的性能改进。

Apr, 2024

标定与重建：用于指代图像分割的深度集成语言

利用 CRFormer 模型，通过连续校准多模态特征，引入语言重建模块和重建损失，解决自然语言表达的图像分割问题，并在多个数据集上表现优于现有方法。

Apr, 2024

面向语义的动态本地化和细化，用于指代图像分割

本论文提出一种基于逐步学习区分性多模态特征的方法，通过不断更新查询作为目标对象的表示，强化与之相关的多模态特征，逐渐从定位中心转为分割中心，实现逐步修复缺失对象部分和 / 或去除多余部分，并在 RefCOCO、RefCOCO+ 和 G-Ref 数据集上的实验结果表明其优于现有方法。

Mar, 2023

多模态互相关注和迭代交互用于指代图像分割

本篇论文提出了一种基于 Transformer 的多模态相互注意力机制和相互解码器，与之相结合的迭代式多模态交互机制及语言特征重建技术，在指代图像分割的任务中取得了很好的效果。

May, 2023

引用变压器：一种多任务视觉基础的一步方法

本次研究提出了一个基于 transformer 架构的单阶段多任务模型，通过融合视觉和语言输入，实现了高度语义转换的视觉语言解析，通过上下文信息和多任务学习，该模型在包括命名实体识别等任务上，取得了比现有方法更加突出的性能优势。

Jun, 2021

编码器融合网络和协同关注嵌入用于参照图像分割

本论文提出了一种图像分割方法，即采用编码器融合网络（EFN）将视觉编码器转换为多模态特征学习网络，利用语言逐步优化多模态特征；在 EFN 中嵌入了协同注意机制，使得多模态特征的平行更新更具协同性，同时提出了边界增强模块（BEM）来增强网络对细节的关注，在四个基准数据集上的实验结果表明所提出的方法在不同的评价指标下均取得了最先进的性能，且无需后处理。

May, 2021