GREC: 广义指代表达理解

Aug, 2023

GREC: Generalized Referring Expression Comprehension

Shuting He, Henghui Ding, Chang Liu, Xudong Jiang

TL;DR通过引入被称为 gRefCOCO 的新基准，这项研究扩展了经典的推理表达理解（REC），允许表达描述任意数量的目标对象，并建立了第一个大规模的 GREC 数据集。

Abstract

The objective of classic referring expression comprehension (REC) is to produce a bounding box corresponding to the object mentioned in a given textual description. Commonly, existing datasets and techniques in classic REC are tailored for expressions that pertain to a single target, m

classic referring expression comprehension generalized referring expression comprehension grec dataset grefcoco target objects

发现论文，激发创造

指代表达理解：方法与数据集综述

本文调查了现代方法解决自然语言与计算机视觉领域中的指代表达理解问题，包括用于编码视觉和文本模态的机制，结构化图表示的模块化架构和基于图形的模型，以及针对小型数据集的结果，提出了复合指称表述理解方向的潜在未来研究方向。

Jul, 2020

大型多模态模型时代中的指代表达理解评估再探

参考表达理解（REC）涉及根据文本描述定位目标实例。本研究质疑现有基准对大型多模态模型（LMMs）的全面性能力，通过手动检查现有基准，发现高标注错误率，并通过排除问题实例和重新评估多种 LMMs 来解决。为了评估现代 REC 模型，引入了 Ref-L4，一个全面的 REC 基准。在 Ref-L4 上评估了 24 个大模型并提供了有价值的见解。

Jun, 2024

广义指称表达分割

本文介绍了一个新的基准测试 Generalized Referring Expression Segmentation (GRES)，它允许表达式引用任意数量的目标对象，为此我们构建了第一个大规模数据集 gRefCOCO，并提出一种基于区域的 GRES 基线 ReLA，它适应性地将图像划分为具有子实例线索的区域，并明确建模区域 - 区域和区域 - 语言之间的依赖关系，在实验研究中，发现 GRES 的一个重要挑战是复杂的关系建模，而基于区域的方法 ReLA 在新提出的 GRES 和经典的 RES 任务上实现了最新的性能水平。

Jun, 2023

双模块记忆的持续指代理解

本文提出了 Continual Referring Expression Comprehension (CREC) 新的设置，通过 Dual Modular Memorization (DMM) 方法，不断改进模型在连续任务上的性能，避免遗忘之前学到的知识并减少重复重新训练的需求。作者在三个常用 REC 数据集上构建了新的 CREC 基准，并通过大量实验证明 DMM 方法显著优于其他方法。

Nov, 2023

能否定位？交互式提及表达生成

本文提出了一个具有相互作用的交互式 REF 模型，利用用于识别目标定位以及由 REC 模型定位的视觉区域的信号逐步修改 REs，实验证明该模型在三个参考数据集上优于现有方法，并通过人工评估证明其生成了更好且具有交互能力的 REs。

Aug, 2023

利用语言适应性推理进行指代表达理解

本文提出了一种名为语言自适应动态子网（LADS）的框架，可以从 REC 模型中提取依赖于表达式的语言自适应子网。通过使用紧凑的子网，推理可以更加经济高效，实验证明该方法可以在 RefCOCO、RefCOCO +、RefCOCOg 和 Referit 上提高推理速度和准确率。

Jun, 2023

一种实时的全球推断网络用于一阶段指称表达理解

本篇论文提出了一种名为 Real-time Global Inference Network 的模型，它使用了关注全局和自适应特征融合机制来实现图像中目标区域与给定文本描述之间的关联，相比于现有多个阶段的模型，该模型可以实现更快的速度，并且在多个数据集上表现出较高的准确度。

Dec, 2019

Cops-Ref：一个关于复合指称表达理解的新数据集和任务

本研究提出一种新的场景下基于规约表达理解的视觉推理数据集，其中使用可灵活组合丰富的视觉属性和多种推理逻辑的新颖表达式引擎生成表达式，并添加额外干扰图像以实现更深层次的视觉推理分析，评估了多种最新的规约表达理解模型，但发现没有一种能够达到良好的表现，提出的模块化较难样本挖掘策略效果最佳，但仍有改进的空间。

Mar, 2020

揭示超越物体的部分：迈向更精细的指代表达分割

提出了一种多层次指代表达式分割任务 (MRES)，构建了一个评估基准 RefCOCOm 和一个规模为 32.2M 的高质量数据集 MRES-32M，设计了 UniRES 模型完成统一的对象级和部分级视觉对齐任务，通过在 RefCOCOm、RefCOCO (+/g) 等数据集上的实验证明了该方法的优越性。

Dec, 2023

提升细化引用表达分割：超越单图像

在更广泛的实际应用场景下，本文提出了一种名为群组式指称表达分割（Group-wise Referring Expression Segmentation，GRES）的更实际、更通用的多模态任务，并引入了一个完整的群组式指称数据集（Grouped Referring Dataset，GRD），该数据集包含由给定表达式描述的目标物体的完整群组式注释。同时，我们还提出了一种基线方法，名为 Grouped Referring Segmenter（GRSer），它明确地捕获语言视觉和群组内视觉 - 视觉交互，实现了 GRES 和相关任务如 Co-Salient Object Detection 和 RES 的最先进结果。

May, 2023