元组合指代表述分割

CVPRApr, 2023

Meta Compositional Referring Expression Segmentation

Li Xu, Mark He Huang, Xindi Shang, Zehuan Yuan, Ying Sun...

TL;DR本文通过元学习的角度，提出了一种 Meta Compositional Referring Expression Segmentation (MCRES) 框架，以提高模型的组合泛化性能。我们的框架可以有效地驱使模型更好地捕捉单个概念的语义和视觉表示，从而在处理新的组合时获得稳健的泛化性能。通过三个基准数据集的广泛实验，证明了我们框架的有效性。

Abstract

referring expression segmentation aims to segment an object described by a language expression from an image. Despite the recent progress on this task, existing models tackling this task may not be able to fully capture semantics and →

referring expression segmentation meta learning compositional generalization novel compositions visual representations

发现论文，激发创造

揭示超越物体的部分：迈向更精细的指代表达分割

提出了一种多层次指代表达式分割任务 (MRES)，构建了一个评估基准 RefCOCOm 和一个规模为 32.2M 的高质量数据集 MRES-32M，设计了 UniRES 模型完成统一的对象级和部分级视觉对齐任务，通过在 RefCOCOm、RefCOCO (+/g) 等数据集上的实验证明了该方法的优越性。

Dec, 2023

提升细化引用表达分割：超越单图像

在更广泛的实际应用场景下，本文提出了一种名为群组式指称表达分割（Group-wise Referring Expression Segmentation，GRES）的更实际、更通用的多模态任务，并引入了一个完整的群组式指称数据集（Grouped Referring Dataset，GRD），该数据集包含由给定表达式描述的目标物体的完整群组式注释。同时，我们还提出了一种基线方法，名为 Grouped Referring Segmenter（GRSer），它明确地捕获语言视觉和群组内视觉 - 视觉交互，实现了 GRES 和相关任务如 Co-Salient Object Detection 和 RES 的最先进结果。

May, 2023

指代表达理解：方法与数据集综述

本文调查了现代方法解决自然语言与计算机视觉领域中的指代表达理解问题，包括用于编码视觉和文本模态的机制，结构化图表示的模块化架构和基于图形的模型，以及针对小型数据集的结果，提出了复合指称表述理解方向的潜在未来研究方向。

Jul, 2020

联合指称表达理解和分割的多任务协作网络

本研究提出一种新的多任务协作网络 (MCN) 模型通过联合学习来实现指代表达理解 (REC) 和分割 (RES) 两个高度相关的任务，并通过创新设计解决预测冲突的挑战，实验结果表明，在三个基准数据集 RefCOCO、RefCOCO+ 和 RefCOCOg 上，MCN 模型相较于现有方法有了显著的表现提升，REC 和 RES 的准确率分别提高了 7.13% 和 11.50%，证实了我们的方法的有效性。

Mar, 2020

Cops-Ref：一个关于复合指称表达理解的新数据集和任务

本研究提出一种新的场景下基于规约表达理解的视觉推理数据集，其中使用可灵活组合丰富的视觉属性和多种推理逻辑的新颖表达式引擎生成表达式，并添加额外干扰图像以实现更深层次的视觉推理分析，评估了多种最新的规约表达理解模型，但发现没有一种能够达到良好的表现，提出的模块化较难样本挖掘策略效果最佳，但仍有改进的空间。

Mar, 2020

广义指称表达分割

本文介绍了一个新的基准测试 Generalized Referring Expression Segmentation (GRES)，它允许表达式引用任意数量的目标对象，为此我们构建了第一个大规模数据集 gRefCOCO，并提出一种基于区域的 GRES 基线 ReLA，它适应性地将图像划分为具有子实例线索的区域，并明确建模区域 - 区域和区域 - 语言之间的依赖关系，在实验研究中，发现 GRES 的一个重要挑战是复杂的关系建模，而基于区域的方法 ReLA 在新提出的 GRES 和经典的 RES 任务上实现了最新的性能水平。

Jun, 2023

通过跨模态递进理解进行参考图像分割

该研究提出了一种基于自然语言表达的交叉模态渐进理解模块和文本引导的特征交换模块，以及基于多模态图推理来高效解决图像分割的问题，并在四个广泛应用的分割数据集中实现了最先进的性能。

Oct, 2020

跨模态逐步理解用于区域引用的分割

本文提出了一个跨模态的渐进式理解方案，分别应用于图像和视频的参考分割中，通过使用实体，属性和关系词汇进行空间图形推理和时间图形推理来解决语言表达的主语并输出像素级掩码。

May, 2021

GSVA：通过多模态大型语言模型进行广义分割

该研究提出了广义引用表达分割（GRES）的问题，并引入了 Multimodal Large Language Models（MLLMs）的方法来解决这个问题，最终通过 Generalized Segmentation Vision Assistant（GSVA）在 gRefCOCO 数据集上取得了显著的改进和新的记录。

Dec, 2023

RESMatch: 半监督方式下的指代表达式分割

该研究介绍了 RESMatch，这是一种用于参考表达分割的半监督学习方法，旨在减少对详尽数据标注的依赖，通过修订强扰动、文本增强和强弱监督质量调整等三种创新，RESMatch 在多个数据集上显著优于基线方法，并树立了新的最优效果，为以后的半监督学习参考表达分割研究奠定了基础。

Feb, 2024