提升细化引用表达分割：超越单图像

May, 2023

提升细化引用表达分割：超越单图像

Advancing Referring Expression Segmentation Beyond Single Image

Yixuan Wu, Zhao Zhang, Xie Chi, Feng Zhu, Rui Zhao

TL;DR在更广泛的实际应用场景下，本文提出了一种名为群组式指称表达分割（Group-wise Referring Expression Segmentation，GRES）的更实际、更通用的多模态任务，并引入了一个完整的群组式指称数据集（Grouped Referring Dataset，GRD），该数据集包含由给定表达式描述的目标物体的完整群组式注释。同时，我们还提出了一种基线方法，名为 Grouped Referring Segmenter（GRSer），它明确地捕获语言视觉和群组内视觉 - 视觉交互，实现了 GRES 和相关任务如 Co-Salient Object Detection 和 RES 的最先进结果。

Abstract

referring expression segmentation (RES) is a widely explored multi-modal task, which endeavors to segment the pre-existing object within a single image with a given linguistic expression. However, in broader real-world scenarios, it is not always possible to determine if the described

referring expression segmentation group-wise referring expression segmentation grouped referring dataset language-vision interactions co-salient object detection

发现论文，激发创造

广义指称表达分割

本文介绍了一个新的基准测试 Generalized Referring Expression Segmentation (GRES)，它允许表达式引用任意数量的目标对象，为此我们构建了第一个大规模数据集 gRefCOCO，并提出一种基于区域的 GRES 基线 ReLA，它适应性地将图像划分为具有子实例线索的区域，并明确建模区域 - 区域和区域 - 语言之间的依赖关系，在实验研究中，发现 GRES 的一个重要挑战是复杂的关系建模，而基于区域的方法 ReLA 在新提出的 GRES 和经典的 RES 任务上实现了最新的性能水平。

Jun, 2023

揭示超越物体的部分：迈向更精细的指代表达分割

提出了一种多层次指代表达式分割任务 (MRES)，构建了一个评估基准 RefCOCOm 和一个规模为 32.2M 的高质量数据集 MRES-32M，设计了 UniRES 模型完成统一的对象级和部分级视觉对齐任务，通过在 RefCOCOm、RefCOCO (+/g) 等数据集上的实验证明了该方法的优越性。

Dec, 2023

GSVA：通过多模态大型语言模型进行广义分割

该研究提出了广义引用表达分割（GRES）的问题，并引入了 Multimodal Large Language Models（MLLMs）的方法来解决这个问题，最终通过 Generalized Segmentation Vision Assistant（GSVA）在 gRefCOCO 数据集上取得了显著的改进和新的记录。

Dec, 2023

将自适应绑定原型用于广义指代表达式分割

基于自然语言表达的参考表达分割 (RES) 引起了越来越多的关注，本文提出了一种新的具有自适应绑定原型的模型 (MABP)，通过将查询自适应绑定到相应区域的物体特征上，显著扩展了解码器的灵活性，分散了全局压力，减轻了编码器的需求。实验结果表明，MABP 在 gRefCOCO 数据集的三个划分上明显优于最先进的方法，同时在 RefCOCO + 和 G-Ref 数据集上超过了最先进的方法，在 RefCOCO 上取得了非常有竞争力的结果。

May, 2024

走向全方位监督引用表达分割

基于语义表达分割（RES）的任务，提出一种新的学习任务，称为全监督引用表达分割（Omni-RES），旨在充分利用未标记、完全标记和弱标记数据进行高效的 RES 训练，并基于最近流行的师生学习方法提出一种有效的基准方法来解决监督信号不直接依赖于弱标签的问题。实验证明，Omni-RES 方法明显优于全监督和半监督训练方案，并使得大规模视觉语言如 Visual Genome 能够在低成本下进行 RES 训练，实现了新的最佳效果。

Nov, 2023

RESMatch: 半监督方式下的指代表达式分割

该研究介绍了 RESMatch，这是一种用于参考表达分割的半监督学习方法，旨在减少对详尽数据标注的依赖，通过修订强扰动、文本增强和强弱监督质量调整等三种创新，RESMatch 在多个数据集上显著优于基线方法，并树立了新的最优效果，为以后的半监督学习参考表达分割研究奠定了基础。

Feb, 2024

元组合指代表述分割

本文通过元学习的角度，提出了一种 Meta Compositional Referring Expression Segmentation (MCRES) 框架，以提高模型的组合泛化性能。我们的框架可以有效地驱使模型更好地捕捉单个概念的语义和视觉表示，从而在处理新的组合时获得稳健的泛化性能。通过三个基准数据集的广泛实验，证明了我们框架的有效性。

Apr, 2023

HDC：具有计数辅助的层次语义解码的广义指代表达分割

通过引入 Hierarchical Semantic Decoding with Counting Assistance (HDC) 框架，以解决 Generalized Referring Expression Segmentation (GRES) 中的空间关系复杂性和多指代情景中目标理解的模糊性问题，HDC 能够在多种场景下进行全面的对象感知。

May, 2024

RRSIS：遥感图像分割引用

本文提出引用遥感图像分割 (RRSIS) 来填补遥感图像分割这一领域的研究空白，并针对存在的问题设计了一种基于语言导向的跨尺度增强 (LGCE) 模块，该模块能够自适应地结合深浅特征，从而更好地实现目标物体的定位。

Jun, 2023

联合指称表达理解和分割的多任务协作网络

本研究提出一种新的多任务协作网络 (MCN) 模型通过联合学习来实现指代表达理解 (REC) 和分割 (RES) 两个高度相关的任务，并通过创新设计解决预测冲突的挑战，实验结果表明，在三个基准数据集 RefCOCO、RefCOCO+ 和 RefCOCOg 上，MCN 模型相较于现有方法有了显著的表现提升，REC 和 RES 的准确率分别提高了 7.13% 和 11.50%，证实了我们的方法的有效性。

Mar, 2020