GREC: 广义指代表达理解
本文调查了现代方法解决自然语言与计算机视觉领域中的指代表达理解问题,包括用于编码视觉和文本模态的机制,结构化图表示的模块化架构和基于图形的模型,以及针对小型数据集的结果,提出了复合指称表述理解方向的潜在未来研究方向。
Jul, 2020
参考表达理解(REC)涉及根据文本描述定位目标实例。本研究质疑现有基准对大型多模态模型(LMMs)的全面性能力,通过手动检查现有基准,发现高标注错误率,并通过排除问题实例和重新评估多种 LMMs 来解决。为了评估现代 REC 模型,引入了 Ref-L4,一个全面的 REC 基准。在 Ref-L4 上评估了 24 个大模型并提供了有价值的见解。
Jun, 2024
本文介绍了一个新的基准测试 Generalized Referring Expression Segmentation (GRES),它允许表达式引用任意数量的目标对象,为此我们构建了第一个大规模数据集 gRefCOCO,并提出一种基于区域的 GRES 基线 ReLA,它适应性地将图像划分为具有子实例线索的区域,并明确建模区域 - 区域和区域 - 语言之间的依赖关系,在实验研究中,发现 GRES 的一个重要挑战是复杂的关系建模,而基于区域的方法 ReLA 在新提出的 GRES 和经典的 RES 任务上实现了最新的性能水平。
Jun, 2023
本文提出了 Continual Referring Expression Comprehension (CREC) 新的设置,通过 Dual Modular Memorization (DMM) 方法,不断改进模型在连续任务上的性能,避免遗忘之前学到的知识并减少重复重新训练的需求。作者在三个常用 REC 数据集上构建了新的 CREC 基准,并通过大量实验证明 DMM 方法显著优于其他方法。
Nov, 2023
本文提出了一个具有相互作用的交互式 REF 模型,利用用于识别目标定位以及由 REC 模型定位的视觉区域的信号逐步修改 REs,实验证明该模型在三个参考数据集上优于现有方法,并通过人工评估证明其生成了更好且具有交互能力的 REs。
Aug, 2023
本文提出了一种名为语言自适应动态子网(LADS)的框架,可以从 REC 模型中提取依赖于表达式的语言自适应子网。通过使用紧凑的子网,推理可以更加经济高效,实验证明该方法可以在 RefCOCO、RefCOCO +、RefCOCOg 和 Referit 上提高推理速度和准确率。
Jun, 2023
本篇论文提出了一种名为 Real-time Global Inference Network 的模型,它使用了关注全局和自适应特征融合机制来实现图像中目标区域与给定文本描述之间的关联,相比于现有多个阶段的模型,该模型可以实现更快的速度,并且在多个数据集上表现出较高的准确度。
Dec, 2019
本研究提出一种新的场景下基于规约表达理解的视觉推理数据集,其中使用可灵活组合丰富的视觉属性和多种推理逻辑的新颖表达式引擎生成表达式,并添加额外干扰图像以实现更深层次的视觉推理分析,评估了多种最新的规约表达理解模型,但发现没有一种能够达到良好的表现,提出的模块化较难样本挖掘策略效果最佳,但仍有改进的空间。
Mar, 2020
提出了一种多层次指代表达式分割任务 (MRES),构建了一个评估基准 RefCOCOm 和一个规模为 32.2M 的高质量数据集 MRES-32M,设计了 UniRES 模型完成统一的对象级和部分级视觉对齐任务,通过在 RefCOCOm、RefCOCO (+/g) 等数据集上的实验证明了该方法的优越性。
Dec, 2023
在更广泛的实际应用场景下,本文提出了一种名为群组式指称表达分割(Group-wise Referring Expression Segmentation,GRES)的更实际、更通用的多模态任务,并引入了一个完整的群组式指称数据集(Grouped Referring Dataset,GRD),该数据集包含由给定表达式描述的目标物体的完整群组式注释。同时,我们还提出了一种基线方法,名为 Grouped Referring Segmenter(GRSer),它明确地捕获语言视觉和群组内视觉 - 视觉交互,实现了 GRES 和相关任务如 Co-Salient Object Detection 和 RES 的最先进结果。
May, 2023