统一参照表达生成和理解

EMNLPOct, 2022

Towards Unifying Reference Expression Generation and Comprehension

Duo Zheng, Tao Kong, Ya Jing, Jiaan Wang, Xiaojie Wang

TL;DR我们提出了一种统一的 REG 和 REC 模型 UniRef，它使用经过精心设计的图像 - 区域 - 文本融合层 (IRTF) 来融合图像、区域和文本，并提出了视觉条件的掩码语言建模 (VMLM) 和文本条件的区域预测 (TRP) 对 UniRef 模型进行预训练以更好地完成这两个高度相关的任务。

Abstract

reference expression generation (REG) and comprehension (REC) are two highly correlated tasks. Modeling REG and REC simultaneously for utilizing the relation between them is a promising way to improve both. Howev

reference expression generation comprehension uniref image-region-text fusion pre-training

发现论文，激发创造

能否定位？交互式提及表达生成

本文提出了一个具有相互作用的交互式 REF 模型，利用用于识别目标定位以及由 REC 模型定位的视觉区域的信号逐步修改 REs，实验证明该模型在三个参考数据集上优于现有方法，并通过人工评估证明其生成了更好且具有交互能力的 REs。

Aug, 2023

一种实时的全球推断网络用于一阶段指称表达理解

本篇论文提出了一种名为 Real-time Global Inference Network 的模型，它使用了关注全局和自适应特征融合机制来实现图像中目标区域与给定文本描述之间的关联，相比于现有多个阶段的模型，该模型可以实现更快的速度，并且在多个数据集上表现出较高的准确度。

Dec, 2019

双模块记忆的持续指代理解

本文提出了 Continual Referring Expression Comprehension (CREC) 新的设置，通过 Dual Modular Memorization (DMM) 方法，不断改进模型在连续任务上的性能，避免遗忘之前学到的知识并减少重复重新训练的需求。作者在三个常用 REC 数据集上构建了新的 CREC 基准，并通过大量实验证明 DMM 方法显著优于其他方法。

Nov, 2023

视频参照表达理解中的基于内容条件查询的 Transformer

使用动态查询和跨模态对齐，基于 Transformer 方法的 ConFormer 模型在视频参考表达理解中表现出色，实现了对目标对象的定位。

Oct, 2023

基于网格 - 词交叉注意力的无提案单阶段指代表达

本研究提出了一个基于交叉注意力变换器的无提案一阶段模型（PFOS），用于根据文本查询从图像中回归感兴趣区域，避免了之前方法所遇到的时间成本和超参数困境，并在四个参考表达数据集上取得了比以往方法更高效的最佳表现。

May, 2021

指代表达理解：方法与数据集综述

本文调查了现代方法解决自然语言与计算机视觉领域中的指代表达理解问题，包括用于编码视觉和文本模态的机制，结构化图表示的模块化架构和基于图形的模型，以及针对小型数据集的结果，提出了复合指称表述理解方向的潜在未来研究方向。

Jul, 2020

引用变压器：一种多任务视觉基础的一步方法

本次研究提出了一个基于 transformer 架构的单阶段多任务模型，通过融合视觉和语言输入，实现了高度语义转换的视觉语言解析，通过上下文信息和多任务学习，该模型在包括命名实体识别等任务上，取得了比现有方法更加突出的性能优势。

Jun, 2021

ScanFormer: 迭代扫描式指代表达理解

该研究论文提出了一种名为 ScanFormer 的粗粒度到细粒度迭代感知框架，通过利用图像尺度金字塔从上到下提取与语言相关的视觉路径，排除与语言无关的冗余视觉区域以提高模型的效率，并在相关数据集上验证了该方法的准确性和效率的平衡。

Jun, 2024

大型多模态模型时代中的指代表达理解评估再探

参考表达理解（REC）涉及根据文本描述定位目标实例。本研究质疑现有基准对大型多模态模型（LMMs）的全面性能力，通过手动检查现有基准，发现高标注错误率，并通过排除问题实例和重新评估多种 LMMs 来解决。为了评估现代 REC 模型，引入了 Ref-L4，一个全面的 REC 基准。在 Ref-L4 上评估了 24 个大模型并提供了有价值的见解。

Jun, 2024

GREC: 广义指代表达理解

通过引入被称为 gRefCOCO 的新基准，这项研究扩展了经典的推理表达理解（REC），允许表达描述任意数量的目标对象，并建立了第一个大规模的 GREC 数据集。

Aug, 2023