重新思考指称物体移除

Mar, 2024

Rethinking Referring Object Removal

Xiangtian Xue, Jiasong Wu, Youyong Kong, Lotfi Senhadji, Huazhong Shu

TL;DR构建了一个合成数据集 ComCOCO，其中包含了 34,615 个对象的 136,495 个自然语言表达的引用表达式，以及 23,951 个图像对的消除后的真实结果。我们进一步提出了一个端到端的语法感知混合映射网络，具有编码 - 解码结构。通过多头注意力在视觉特征的下采样过程中，以句法层次分层提取语言特征，并融合在一起。利用特征对齐的金字塔网络，生成分割掩模，并用从高层特征图中学习到的外部语义区域亲和性替换内部像素。大量实验证明，我们的模型在处理分割和修复任务的两个阶段的扩散模型和两阶段方法上，明显优于它们。

Abstract

referring object removal refers to removing the specific object in an image referred by natural language expressions and filling the missing region with reasonable semantics. To address this task, we construct the ComCOCO, a synthetic dataset consisting of 136,495 referring expressions

referring object removal comcoco dataset syntax-aware hybrid mapping network segmentation masks region affinity

发现论文，激发创造

基于标题感知的指代表达式物体分割

本文介绍了一种通过端到端可训练的理解网络，由语言和视觉编码器组成，从语言和图像领域提取特征表示，提出了空间感知动态滤波器来转移文本到图像的知识并有效捕获指定对象的空间信息，并采用生成的字幕网络来加强语言和视觉模块之间的通信以及改进两者的表示，在两个数据集上评估了所提出的框架，并表明该方法在状态 - of-the-art 算法中表现良好。

Oct, 2019

面向语义的动态本地化和细化，用于指代图像分割

本论文提出一种基于逐步学习区分性多模态特征的方法，通过不断更新查询作为目标对象的表示，强化与之相关的多模态特征，逐渐从定位中心转为分割中心，实现逐步修复缺失对象部分和 / 或去除多余部分，并在 RefCOCO、RefCOCO+ 和 G-Ref 数据集上的实验结果表明其优于现有方法。

Mar, 2023

指代表达中的上下文建模

本研究旨在使用更好的视觉上下文测量标准，将对象识别和自然语言表达结合起来，从而提高对象识别和自然语言表达模型的性能。在 RefCOCO、RefCOCO+ 和 RefCOCOg 三个数据集上的评估表明，我们的方法对于对象指称生成和理解都具有优势。

Jul, 2016

超越一对一：重新思考参考图像分割

本文提出了一种双重多模态交互网络 (DMMI)，用于解决自然语言表达中引用图像分割的问题，并设计了一个新的挑战性但真实的数据集 Ref-ZOM，通过大量实验证明该方法在不同数据集上取得了最先进的性能，并且 Ref-ZOM 训练的模型能够良好地处理各种类型的文本输入。

Aug, 2023

SynthRef: 为目标分割生成合成指称表达式

本文提出了 SynthRef 方法和第一批包含视频对象分割合成参考表达的大规模数据集，通过使用这些合成参考表达，可以提高模型在不同数据集上的泛化能力，为对象检测或分割数据集的应用提供了可能性。

Jun, 2021

Cops-Ref：一个关于复合指称表达理解的新数据集和任务

本研究提出一种新的场景下基于规约表达理解的视觉推理数据集，其中使用可灵活组合丰富的视觉属性和多种推理逻辑的新颖表达式引擎生成表达式，并添加额外干扰图像以实现更深层次的视觉推理分析，评估了多种最新的规约表达理解模型，但发现没有一种能够达到良好的表现，提出的模块化较难样本挖掘策略效果最佳，但仍有改进的空间。

Mar, 2020

一种用于指代表达理解的实时跨模态相关性滤波方法

本论文提出了一种新的 Realtime Cross-modality Correlation Filtering 方法 (RCCF)，将指称表达理解重新表述为一种相关滤波过程，使得物体的定位更准确，在 RefClef、RefCOCO、RefCOCO + 和 RefCOCOg 基准测试中取得领先的性能，通过 RCCF 方法，我们的模型可以在 40 FPS 的速度下实现了超过之前最好结果的性能。

Sep, 2019

CLEVR-Ref+: 通过指称表达式诊断视觉推理

该研究建立了 CLEVR-Ref + 合成数据集来评估当前流行模型在指代表达理解任务中的表现并提出了 IEP-Ref 模块化网络的方法来更好地理解中间推理过程，其中模块的行为得到了量化证明并展现了惊人的准确性。

Jan, 2019

生成和理解明确的物体描述

本文提出了一种生成图像中特定物体或区域（即指代表达）的明确描述并理解或推断所描述的物体的方法。实验表明，该方法优于之前没有考虑场景中其他潜在歧义对象而生成对象描述的方法。作者基于深度学习方法取得的最近成功，灵感提出了该方法。作者提供了一个基于 MS-COCO 的新的大规模指代表达数据集，并发布了数据集和可视化和评估工具箱。

Nov, 2015

MMNet：用于指代图像分割的多掩模网络

本文提出了一种端到端的多层蒙版网络 (MMNet), 旨在解决自然语言表达和图像之间数据差异的挑战。该模型使用关注机制生成多个查询，利用这些查询来产生对应的分割蒙版，最终的结果是所有蒙版的权重和，有效地减少了语言表达的随机性。结果表明，我们的方法在 RefCOCO、RefCOCO+ 和 G-Ref 三个数据集上性能优于现有的方法，无需任何后处理。

May, 2023