生成和理解明确的物体描述

CVPRNov, 2015

Generation and Comprehension of Unambiguous Object Descriptions

Junhua Mao, Jonathan Huang, Alexander Toshev, Oana Camburu, Alan Yuille...

TL;DR本文提出了一种生成图像中特定物体或区域（即指代表达）的明确描述并理解或推断所描述的物体的方法。实验表明，该方法优于之前没有考虑场景中其他潜在歧义对象而生成对象描述的方法。作者基于深度学习方法取得的最近成功，灵感提出了该方法。作者提供了一个基于 MS-COCO 的新的大规模指代表达数据集，并发布了数据集和可视化和评估工具箱。

Abstract

We propose a method that can generate an unambiguous description (known as a referring expression) of a specific object or region in an image, and which can also comprehend or interpret such an expression to infe

referring expression image deep learning dataset evaluation

发现论文，激发创造

理解引导的指示表达式

本研究探讨了自然语言生成和阅读，特别是在图像中的特定物体的指称表达。我们提出了两种方法来利用人类生成表达的理解模块，以改进表达的生成质量，并在多个基准数据集上展示了改进效果。

Jan, 2017

基于标题感知的指代表达式物体分割

本文介绍了一种通过端到端可训练的理解网络，由语言和视觉编码器组成，从语言和图像领域提取特征表示，提出了空间感知动态滤波器来转移文本到图像的知识并有效捕获指定对象的空间信息，并采用生成的字幕网络来加强语言和视觉模块之间的通信以及改进两者的表示，在两个数据集上评估了所提出的框架，并表明该方法在状态 - of-the-art 算法中表现良好。

Oct, 2019

指代表达中的上下文建模

本研究旨在使用更好的视觉上下文测量标准，将对象识别和自然语言表达结合起来，从而提高对象识别和自然语言表达模型的性能。在 RefCOCO、RefCOCO+ 和 RefCOCOg 三个数据集上的评估表明，我们的方法对于对象指称生成和理解都具有优势。

Jul, 2016

DesCo: 利用丰富的语言描述学习物体识别

该研究提出了一种新的描述条件（DesCo）学习范式，利用大型语言模型作为常识知识引擎并设计了上下文敏感查询来改善模型的描述能力，从而在零样本检测环境下，超越了先前的最先进模型，以提高物体识别的准确性。

Jun, 2023

一种基于上下文感知的端到端自然语言对象检索方法

本文介绍一种通过深度强化学习的方式，结合空间和时间情境及自然语言先验知识，移动和重塑边界框以定位描述中的物体，从而实现自然语言目标检索任务。作者实验表明，该方法在多个数据集上均优于现有算法，特别在 ReferItGame 数据集上，该方法相比 GroundeR 和 SCRC 的准确率分别提高了 7.67％和 18.25％。

Mar, 2017

重新思考指称物体移除

构建了一个合成数据集 ComCOCO，其中包含了 34,615 个对象的 136,495 个自然语言表达的引用表达式，以及 23,951 个图像对的消除后的真实结果。我们进一步提出了一个端到端的语法感知混合映射网络，具有编码 - 解码结构。通过多头注意力在视觉特征的下采样过程中，以句法层次分层提取语言特征，并融合在一起。利用特征对齐的金字塔网络，生成分割掩模，并用从高层特征图中学习到的外部语义区域亲和性替换内部像素。大量实验证明，我们的模型在处理分割和修复任务的两个阶段的扩散模型和两阶段方法上，明显优于它们。

Mar, 2024

用于开放式物体检测的生成式区域语言预训练

生成式开放式物体检测是一种更通用、实用的问题，本论文提出了一个名为 GenerateU 的简单框架，将物体检测作为一个生成问题，可以以自由形式检测密集物体并生成它们的名称，通过广泛的实验验证了 GenerateU 的强大的零样本检测性能。

Mar, 2024

使用知识引导辅助描述包含新型物体的自然图像

提出一种使用知识库指导的、包括多个抽象概念的多实体标签图像识别模型，在描绘描绘未知 / 新物体的图像生成模型中，利用第一步预测的抽象概念作为外部语义关注和约束推理的依据，以处理野外图像中的抽象概念，对 MSCOCO 数据集进行了实验验证，结果显示出了优于以前大部分工作的性能，并可用于知识和视觉的通用集成。

Oct, 2017

视觉指向表达识别：系统实际学习了什么？

本文通过对指称表达识别最先进系统的经验分析来探究这些系统处理语言和视觉的方式，并发现这些系统可能忽略语言结构，依赖于数据选择和注释过程中引入的浅层相关性。

May, 2018

Cops-Ref：一个关于复合指称表达理解的新数据集和任务

本研究提出一种新的场景下基于规约表达理解的视觉推理数据集，其中使用可灵活组合丰富的视觉属性和多种推理逻辑的新颖表达式引擎生成表达式，并添加额外干扰图像以实现更深层次的视觉推理分析，评估了多种最新的规约表达理解模型，但发现没有一种能够达到良好的表现，提出的模块化较难样本挖掘策略效果最佳，但仍有改进的空间。

Mar, 2020