EAVL：明确对齐视觉与语言以实现图像引用分割

Aug, 2023

EAVL：明确对齐视觉与语言以实现图像引用分割

EAVL: Explicitly Align Vision and Language for Referring Image Segmentation

Yichen Yan, Xingjian He, Wenxuan Wang, Sihan Chen, Jing Liu

TL;DR通过显式对齐视觉和语言特征，我们提出了针对指代图像分割的显式对齐视觉和语言的方法（EAVL），该方法通过生成多个查询并将其转换为一系列基于查询的卷积核，在分割阶段对齐语言和视觉特征，以实现与语言相关的定位，并在 RefCOCO，RefCOCO + 和 G-Ref 上超过了之前最先进的方法。

Abstract

referring image segmentation aims to segment an object mentioned in natural language from an image. A main challenge is language-related localization

referring image segmentation language-related localization fusion of vision and language features explicit alignment of vision and language features language-related localization

发现论文，激发创造

LAVT：用于参照图像分割的语言感知视觉 Transformer

本研究提出一种新的方法，在视觉 Transformer 编码器网络的中间层通过对语言和视觉特征进行交叉融合，实现更好的交叉模态对齐，进而通过轻量级的掩模预测器得到准确的分割结果，该方法在 RefCOCO、RefCOCO + 和 G-Ref 数据集上均超越了以往的最优方法。

Dec, 2021

面向语义的动态本地化和细化，用于指代图像分割

本论文提出一种基于逐步学习区分性多模态特征的方法，通过不断更新查询作为目标对象的表示，强化与之相关的多模态特征，逐渐从定位中心转为分割中心，实现逐步修复缺失对象部分和 / 或去除多余部分，并在 RefCOCO、RefCOCO+ 和 G-Ref 数据集上的实验结果表明其优于现有方法。

Mar, 2023

定位并分割：一个强大的指示物图像分割流水线

本文从 “定位 - 再分割”（LTS）的视角来看待指涉图像分割任务，并提出了一个简单有效的方法，通过提取和融合视觉和文本特征，然后在视觉 - 文本特征之间应用交互，定位被指涉的对象，并使用轻量级分割网络生成分割结果。通过可视化实验，证明该模型更易于解释和理解，且在三个流行数据集上超过以往最先进方法，是指涉图像分割的一个强有力的基准。

Mar, 2021

VLT: 面向参考分割的视觉语言变换器和查询生成

该研究提出了一种轻量级的视觉 - 语言 Transformer 框架来实现引用分割，其中包括 Query Generation Module，Query Balance Module 以及 masked contrastive learning，它们能够动态生成多个特定于输入的查询，以明晰理解语言表达的多样性，同时针对不同的语言表达方式进行了明确的跨样本学习。该框架在五个数据集上都实现了最新的引用分割成果。

Oct, 2022

利用视觉感知文本特征改进指代图像分割

提出一种名为 VATEX 的新框架，通过使用视觉感知文本特征来改进指代图像分割，在复杂场景中，通过将视觉特征与文本描述相结合，使用 CLIP 来生成初始查询，然后通过上下文理解来强制执行文本变体之间的特征相似性，并保证了语言表达的一致解释。该方法在三个基准数据集 RefCOCO、RefCOCO + 和 G-Ref 上取得了显著的性能改进。

Apr, 2024

融合与校准：一种双向的视觉语言引导的用于指代图像分割的框架

本文介绍了 FCNet（一个使用双向引导融合方法的框架），其中视觉和语言在引导角色中相互作用，旨在解决自然语言描述与像素级细节之间的关联问题，并通过在多模态特征上进行初始融合和进一步校准，提高多模态特征的质量。实验结果表明，我们的方法在多个数据集上优于现有最先进算法。

May, 2024

利用视觉语言预训练模型驱动参考视频对象分割

该研究提出了一种名为 VLP-RVOS 的框架，通过使用先前训练的 Vision-Language Pre-trained (VLP) 模型的对齐 VL 特征空间，解决了 Referring Video Object Segmentation (RVOS) 中的转移挑战。该方法通过引入一种时间感知的 prompt-tuning 方法和多阶段 VL 关系建模，以及自定义的立方体帧注意力机制进行综合的 VL 理解和空时推理，实验证明该方法优于现有算法并具有强大的泛化能力。

May, 2024

编码器融合网络和协同关注嵌入用于参照图像分割

本论文提出了一种图像分割方法，即采用编码器融合网络（EFN）将视觉编码器转换为多模态特征学习网络，利用语言逐步优化多模态特征；在 EFN 中嵌入了协同注意机制，使得多模态特征的平行更新更具协同性，同时提出了边界增强模块（BEM）来增强网络对细节的关注，在四个基准数据集上的实验结果表明所提出的方法在不同的评价指标下均取得了最先进的性能，且无需后处理。

May, 2021

语言指代表达的视频目标分割

本文提出一种利用语言描述指定目标对象的视频目标分割方法，通过扩展图像的语言基础模型来保证时空连续的预测，实验结果表明这种基于语言监督的方法在 DAVIS'16 数据集上表现与使用像素级掩模的传统方法相同，在 DAVIS'17 数据集上表现优于使用涂鸦的方法。

Mar, 2018

CAVL：学习视觉与语言的对比和自适应表征

本研究主要探讨了视觉与语言的联合预训练，提出了一种名为 CAVL 的视觉和语言的对比和自适应表示简单有效的方法。在下游任务中，我们将其应用于包括 VQA，VCR，NLVR，RPG，TIR 和 ZS-TIR 在内的六项主要任务中，并与基准模型进行比较，结果表明我们的方法具有明显的优势。

Apr, 2023