标定与重建：用于指代图像分割的深度集成语言

Apr, 2024

标定与重建：用于指代图像分割的深度集成语言

Calibration & Reconstruction: Deep Integrated Language for Referring Image Segmentation

Yichen Yan, Xingjian He, Sihan Chen, Jing Liu

TL;DR利用 CRFormer 模型，通过连续校准多模态特征，引入语言重建模块和重建损失，解决自然语言表达的图像分割问题，并在多个数据集上表现优于现有方法。

Abstract

referring image segmentation aims to segment an object referred to by natural language expression from an image. The primary challenge lies in the efficient propagation of fine-grained semantic information from textual features to visual features. Many recent works utilize a

referring image segmentation transformer crformer multi-modal features language reconstruction

发现论文，激发创造

LAVT：用于参照图像分割的语言感知视觉 Transformer

本研究提出一种新的方法，在视觉 Transformer 编码器网络的中间层通过对语言和视觉特征进行交叉融合，实现更好的交叉模态对齐，进而通过轻量级的掩模预测器得到准确的分割结果，该方法在 RefCOCO、RefCOCO + 和 G-Ref 数据集上均超越了以往的最优方法。

Dec, 2021

面向语义的动态本地化和细化，用于指代图像分割

本论文提出一种基于逐步学习区分性多模态特征的方法，通过不断更新查询作为目标对象的表示，强化与之相关的多模态特征，逐渐从定位中心转为分割中心，实现逐步修复缺失对象部分和 / 或去除多余部分，并在 RefCOCO、RefCOCO+ 和 G-Ref 数据集上的实验结果表明其优于现有方法。

Mar, 2023

针对引用分割的视觉语言变换器和查询生成模型

本文针对有挑战性的指称分割任务，利用注意力机制、多头注意力、查询生成模块和查询平衡模块等技术，构建了一种轻量级的网络架构来解决任务，并在 RefCOCO、RefCOCO + 和 G-Ref 三个数据集上实现了新的最高性能。

Aug, 2021

多模态互相关注和迭代交互用于指代图像分割

本篇论文提出了一种基于 Transformer 的多模态相互注意力机制和相互解码器，与之相结合的迭代式多模态交互机制及语言特征重建技术，在指代图像分割的任务中取得了很好的效果。

May, 2023

融合与校准：一种双向的视觉语言引导的用于指代图像分割的框架

本文介绍了 FCNet（一个使用双向引导融合方法的框架），其中视觉和语言在引导角色中相互作用，旨在解决自然语言描述与像素级细节之间的关联问题，并通过在多模态特征上进行初始融合和进一步校准，提高多模态特征的质量。实验结果表明，我们的方法在多个数据集上优于现有最先进算法。

May, 2024

使用 Transformer 进行对比分组的指向图像分割

在本文中，我们提出了一种使用对比式分组和 Transformer 网络 (CGFormer) 的掩模分类框架，通过基于令牌的查询和分组策略来明确捕捉对象级信息。CGFormer 通过交替查询语言特征并将视觉特征分组到查询令牌中进行对象感知的跨模态推理，最终通过对比学习来确定与参考对象对应的令牌及其掩模，实验结果显示 CGFormer 在分割和泛化设置中始终明显优于最先进的方法。

Sep, 2023

CRIS: 基于 CLIP 推理的参考图像分割

本文提出了一种基于 CLIP 的终端到终端的指代图像分割框架（CRIS），该框架采用视觉语言解码器和对比学习实现文本到像素级特征的对齐，通过在三个基准数据集上的实验结果表明，该框架的性能显著优于现有方法。

Nov, 2021

引用变压器：一种多任务视觉基础的一步方法

本次研究提出了一个基于 transformer 架构的单阶段多任务模型，通过融合视觉和语言输入，实现了高度语义转换的视觉语言解析，通过上下文信息和多任务学习，该模型在包括命名实体识别等任务上，取得了比现有方法更加突出的性能优势。

Jun, 2021

ReSTR: 使用 Transformers 实现无卷积参考图像分割

本文介绍 ReSTR，一种卷积神经网络瓶颈可用的 Transformer，它可以用自注意力机制来融合图像和语言信息。该模型在公共基准测试中表现出色。

Mar, 2022

用于参考图像分割的循环多模态交互

本研究探讨了自然语言描述下图像分割的问题，提出了基于卷积多模态 LSTM 编码单词、视觉和空间信息的序列交互的方法，并在基准数据集上展示出了其比基准模型更好的性能。

Mar, 2017