EAVL:明确对齐视觉与语言以实现图像引用分割
本研究提出一种新的方法,在视觉 Transformer 编码器网络的中间层通过对语言和视觉特征进行交叉融合,实现更好的交叉模态对齐,进而通过轻量级的掩模预测器得到准确的分割结果,该方法在 RefCOCO、RefCOCO + 和 G-Ref 数据集上均超越了以往的最优方法。
Dec, 2021
本论文提出一种基于逐步学习区分性多模态特征的方法,通过不断更新查询作为目标对象的表示,强化与之相关的多模态特征,逐渐从定位中心转为分割中心,实现逐步修复缺失对象部分和 / 或去除多余部分,并在 RefCOCO、RefCOCO+ 和 G-Ref 数据集上的实验结果表明其优于现有方法。
Mar, 2023
本文从 “定位 - 再分割”(LTS)的视角来看待指涉图像分割任务,并提出了一个简单有效的方法,通过提取和融合视觉和文本特征,然后在视觉 - 文本特征之间应用交互,定位被指涉的对象,并使用轻量级分割网络生成分割结果。通过可视化实验,证明该模型更易于解释和理解,且在三个流行数据集上超过以往最先进方法,是指涉图像分割的一个强有力的基准。
Mar, 2021
该研究提出了一种轻量级的视觉 - 语言 Transformer 框架来实现引用分割,其中包括 Query Generation Module,Query Balance Module 以及 masked contrastive learning,它们能够动态生成多个特定于输入的查询,以明晰理解语言表达的多样性,同时针对不同的语言表达方式进行了明确的跨样本学习。该框架在五个数据集上都实现了最新的引用分割成果。
Oct, 2022
提出一种名为 VATEX 的新框架,通过使用视觉感知文本特征来改进指代图像分割,在复杂场景中,通过将视觉特征与文本描述相结合,使用 CLIP 来生成初始查询,然后通过上下文理解来强制执行文本变体之间的特征相似性,并保证了语言表达的一致解释。该方法在三个基准数据集 RefCOCO、RefCOCO + 和 G-Ref 上取得了显著的性能改进。
Apr, 2024
本文介绍了 FCNet(一个使用双向引导融合方法的框架),其中视觉和语言在引导角色中相互作用,旨在解决自然语言描述与像素级细节之间的关联问题,并通过在多模态特征上进行初始融合和进一步校准,提高多模态特征的质量。实验结果表明,我们的方法在多个数据集上优于现有最先进算法。
May, 2024
该研究提出了一种名为 VLP-RVOS 的框架,通过使用先前训练的 Vision-Language Pre-trained (VLP) 模型的对齐 VL 特征空间,解决了 Referring Video Object Segmentation (RVOS) 中的转移挑战。该方法通过引入一种时间感知的 prompt-tuning 方法和多阶段 VL 关系建模,以及自定义的立方体帧注意力机制进行综合的 VL 理解和空时推理,实验证明该方法优于现有算法并具有强大的泛化能力。
May, 2024
本论文提出了一种图像分割方法,即采用编码器融合网络(EFN)将视觉编码器转换为多模态特征学习网络,利用语言逐步优化多模态特征;在 EFN 中嵌入了协同注意机制,使得多模态特征的平行更新更具协同性,同时提出了边界增强模块(BEM)来增强网络对细节的关注,在四个基准数据集上的实验结果表明所提出的方法在不同的评价指标下均取得了最先进的性能,且无需后处理。
May, 2021
本文提出一种利用语言描述指定目标对象的视频目标分割方法,通过扩展图像的语言基础模型来保证时空连续的预测,实验结果表明这种基于语言监督的方法在 DAVIS'16 数据集上表现与使用像素级掩模的传统方法相同,在 DAVIS'17 数据集上表现优于使用涂鸦的方法。
Mar, 2018
本研究主要探讨了视觉与语言的联合预训练,提出了一种名为 CAVL 的视觉和语言的对比和自适应表示简单有效的方法。在下游任务中,我们将其应用于包括 VQA,VCR,NLVR,RPG,TIR 和 ZS-TIR 在内的六项主要任务中,并与基准模型进行比较,结果表明我们的方法具有明显的优势。
Apr, 2023