本研究旨在使用更好的视觉上下文测量标准,将对象识别和自然语言表达结合起来,从而提高对象识别和自然语言表达模型的性能。在 RefCOCO、RefCOCO+ 和 RefCOCOg 三个数据集上的评估表明,我们的方法对于对象指称生成和理解都具有优势。
Jul, 2016
本文提出了一个具有相互作用的交互式 REF 模型,利用用于识别目标定位以及由 REC 模型定位的视觉区域的信号逐步修改 REs,实验证明该模型在三个参考数据集上优于现有方法,并通过人工评估证明其生成了更好且具有交互能力的 REs。
Aug, 2023
该研究提出了一种面向上下文的实体参照生成模型,并解决了现有模型依赖于特定实体训练数据的局限性,同时在 WebNLG 数据集上进行的实验表明,该模型在多个方面有着优越的表现。
Sep, 2019
本研究提出使用场景图上下文来改善场景图的图像生成,通过引入上下文网络将图卷积神经网络生成的特征并入图像生成网络和对抗性损失,从而不仅能够生成逼真的图像,还能更好地保留非空间对象之间的关系,并定义两个评估指标,Relation Score 和 Mean Opinion Relation Score,直接评估场景图的一致性,并经过定量和定性研究证明了该模型在这一具有挑战性的任务上优于现有技术。
Jan, 2019
DisCLIP: 一种基于预训练的视觉 - 语义模型和 LLM 的 REFER 生成方法,可以在推断时生成与目标概念一致且不包含其他干扰概念的上下文描述,相较于传统的监督学习方法,在泛化到新图像和概念的情况下表现更优,同时使用人工评估和多个 REF 表现测试表明该方法为有效的高质量上下文描述生成方法。
May, 2023
提出了一种技术,该技术通过整合对象之间的上下文来理解指代表达式,使用 LSTM 学习指代表达式的概率,并利用多示例学习 (MIL) 方法发现上下文区域,使用最大边际 MIL 目标函数训练 LSTM,实验结果表明,与仅建模对象属性相比,建模对象间上下文可以提供更好的性能,并可以定量地表明该技术可以将指涉表达式与支持的上下文区域联系起来。
Aug, 2016
本研究采用变分贝叶斯方法来解决在图像中定位和链接指称表述时复杂上下文建模的问题,并考虑语义信息和上下文的相互关系以及在监督和非监督设置中的提高。
Jul, 2019
近年来,许多自然语言处理(NLP)的研究主要关注于性能改进。本文通过在上下文中生成指代表达式(REG-in-context)的任务作为案例研究,聚焦于 NLP 的语言和科学方面。我们对 GREC 进行分析,这是一个十多年前在英语中解决这个主题的多样共享任务的综合数据集。我们研究了模型在更现实的数据集上和使用更先进方法评估时的表现。我们通过不同评估指标和特征选择实验来测试这些模型。我们得出结论,GREC 不能再被视为可靠评估模型仿真人类参考生成能力的工具,因为结果受到语料库和评估指标选项的极大影响。我们的结果还表明,预训练语言模型对语料库的选择不太依赖,相比传统机器学习模型更能提供更强大的类别预测。
Jul, 2023
本文提出了一种变分贝叶斯方法,名为变分语境,用于解决指代表达的复杂上下文建模问题,在具有监督学习和无监督学习的情况下对各种基准进行广泛实验,都得到了优秀的结果。
Dec, 2017
本研究提出一种新的场景下基于规约表达理解的视觉推理数据集,其中使用可灵活组合丰富的视觉属性和多种推理逻辑的新颖表达式引擎生成表达式,并添加额外干扰图像以实现更深层次的视觉推理分析,评估了多种最新的规约表达理解模型,但发现没有一种能够达到良好的表现,提出的模块化较难样本挖掘策略效果最佳,但仍有改进的空间。
Mar, 2020