基于场景上下文的视觉引用表达生成中的弹性

Apr, 2024

基于场景上下文的视觉引用表达生成中的弹性

Resilience through Scene Context in Visual Referring Expression Generation

Simeon Junker, Sina Zarrieß

TL;DR探究场景背景在图像中物体指称生成中的作用，并以转换器为基础的 REG 模型为训练和测试对象，结果显示即使简单的场景背景也能使模型对干扰具有出乎意料的韧性，甚至在完全缺失目标的视觉信息情况下也能辨别出指称类型。

Abstract

scene context is well known to facilitate humans' perception of visible objects. In this paper, we investigate the role of context in Referring Expression Generation (REG) for objects in images, where existing re

scene context referring expression generation objects in images contextual information transformer-based reg models

发现论文，激发创造

指代表达中的上下文建模

本研究旨在使用更好的视觉上下文测量标准，将对象识别和自然语言表达结合起来，从而提高对象识别和自然语言表达模型的性能。在 RefCOCO、RefCOCO+ 和 RefCOCOg 三个数据集上的评估表明，我们的方法对于对象指称生成和理解都具有优势。

Jul, 2016

能否定位？交互式提及表达生成

本文提出了一个具有相互作用的交互式 REF 模型，利用用于识别目标定位以及由 REC 模型定位的视觉区域的信号逐步修改 REs，实验证明该模型在三个参考数据集上优于现有方法，并通过人工评估证明其生成了更好且具有交互能力的 REs。

Aug, 2023

使用实体概况生成指代表达式

该研究提出了一种面向上下文的实体参照生成模型，并解决了现有模型依赖于特定实体训练数据的局限性，同时在 WebNLG 数据集上进行的实验表明，该模型在多个方面有着优越的表现。

Sep, 2019

利用场景图上下文改进图像生成

本研究提出使用场景图上下文来改善场景图的图像生成，通过引入上下文网络将图卷积神经网络生成的特征并入图像生成网络和对抗性损失，从而不仅能够生成逼真的图像，还能更好地保留非空间对象之间的关系，并定义两个评估指标，Relation Score 和 Mean Opinion Relation Score，直接评估场景图的一致性，并经过定量和定性研究证明了该模型在这一具有挑战性的任务上优于现有技术。

Jan, 2019

DisCLIP: 开放式词汇参照表达生成

DisCLIP: 一种基于预训练的视觉 - 语义模型和 LLM 的 REFER 生成方法，可以在推断时生成与目标概念一致且不包含其他干扰概念的上下文描述，相较于传统的监督学习方法，在泛化到新图像和概念的情况下表现更优，同时使用人工评估和多个 REF 表现测试表明该方法为有效的高质量上下文描述生成方法。

May, 2023

为指称表达理解建模物体间的语境关系

提出了一种技术，该技术通过整合对象之间的上下文来理解指代表达式，使用 LSTM 学习指代表达式的概率，并利用多示例学习 (MIL) 方法发现上下文区域，使用最大边际 MIL 目标函数训练 LSTM，实验结果表明，与仅建模对象属性相比，建模对象间上下文可以提供更好的性能，并可以定量地表明该技术可以将指涉表达式与支持的上下文区域联系起来。

Aug, 2016

变分上下文：利用视觉和文本上下文来确定指代表达式

本研究采用变分贝叶斯方法来解决在图像中定位和链接指称表述时复杂上下文建模的问题，并考虑语义信息和上下文的相互关系以及在监督和非监督设置中的提高。

Jul, 2019

参考生成模型：如何经受时间的考验？

近年来，许多自然语言处理（NLP）的研究主要关注于性能改进。本文通过在上下文中生成指代表达式（REG-in-context）的任务作为案例研究，聚焦于 NLP 的语言和科学方面。我们对 GREC 进行分析，这是一个十多年前在英语中解决这个主题的多样共享任务的综合数据集。我们研究了模型在更现实的数据集上和使用更先进方法评估时的表现。我们通过不同评估指标和特征选择实验来测试这些模型。我们得出结论，GREC 不能再被视为可靠评估模型仿真人类参考生成能力的工具，因为结果受到语料库和评估指标选项的极大影响。我们的结果还表明，预训练语言模型对语料库的选择不太依赖，相比传统机器学习模型更能提供更强大的类别预测。

Jul, 2023

通过可变上下文将指代表达式与图像联系起来

本文提出了一种变分贝叶斯方法，名为变分语境，用于解决指代表达的复杂上下文建模问题，在具有监督学习和无监督学习的情况下对各种基准进行广泛实验，都得到了优秀的结果。

Dec, 2017

Cops-Ref：一个关于复合指称表达理解的新数据集和任务

本研究提出一种新的场景下基于规约表达理解的视觉推理数据集，其中使用可灵活组合丰富的视觉属性和多种推理逻辑的新颖表达式引擎生成表达式，并添加额外干扰图像以实现更深层次的视觉推理分析，评估了多种最新的规约表达理解模型，但发现没有一种能够达到良好的表现，提出的模块化较难样本挖掘策略效果最佳，但仍有改进的空间。

Mar, 2020