为指称表达理解建模物体间的语境关系
本研究旨在使用更好的视觉上下文测量标准,将对象识别和自然语言表达结合起来,从而提高对象识别和自然语言表达模型的性能。在 RefCOCO、RefCOCO+ 和 RefCOCOg 三个数据集上的评估表明,我们的方法对于对象指称生成和理解都具有优势。
Jul, 2016
本文介绍了一种通过端到端可训练的理解网络,由语言和视觉编码器组成,从语言和图像领域提取特征表示,提出了空间感知动态滤波器来转移文本到图像的知识并有效捕获指定对象的空间信息,并采用生成的字幕网络来加强语言和视觉模块之间的通信以及改进两者的表示,在两个数据集上评估了所提出的框架,并表明该方法在状态 - of-the-art 算法中表现良好。
Oct, 2019
本文提出了一种 Cross-Modal Relationship Extractor (CMRE) 的方法,利用跨模式的注意力机制自适应地提取和关联表达式中与对象相关的空间和语义关系,并将提取的信息表示为语言导向的视觉关系图。同时,我们还提出了一种 Gated Graph Convolutional Network (GGCN),通过融合不同模式的信息并在结构化的关系图中传播多模式信息来计算多模式语义上下文,并在三个通用基准数据集上证明了该方法的显著优于所有现有的最新方法。
Jun, 2019
本研究提出一种新的场景下基于规约表达理解的视觉推理数据集,其中使用可灵活组合丰富的视觉属性和多种推理逻辑的新颖表达式引擎生成表达式,并添加额外干扰图像以实现更深层次的视觉推理分析,评估了多种最新的规约表达理解模型,但发现没有一种能够达到良好的表现,提出的模块化较难样本挖掘策略效果最佳,但仍有改进的空间。
Mar, 2020
本文介绍一种通过深度强化学习的方式,结合空间和时间情境及自然语言先验知识,移动和重塑边界框以定位描述中的物体,从而实现自然语言目标检索任务。作者实验表明,该方法在多个数据集上均优于现有算法,特别在 ReferItGame 数据集上,该方法相比 GroundeR 和 SCRC 的准确率分别提高了 7.67%和 18.25%。
Mar, 2017
本研究采用变分贝叶斯方法来解决在图像中定位和链接指称表述时复杂上下文建模的问题,并考虑语义信息和上下文的相互关系以及在监督和非监督设置中的提高。
Jul, 2019
本文提出了一种变分贝叶斯方法,名为变分语境,用于解决指代表达的复杂上下文建模问题,在具有监督学习和无监督学习的情况下对各种基准进行广泛实验,都得到了优秀的结果。
Dec, 2017
探究场景背景在图像中物体指称生成中的作用,并以转换器为基础的 REG 模型为训练和测试对象,结果显示即使简单的场景背景也能使模型对干扰具有出乎意料的韧性,甚至在完全缺失目标的视觉信息情况下也能辨别出指称类型。
Apr, 2024
本研究探讨了自然语言生成和阅读,特别是在图像中的特定物体的指称表达。我们提出了两种方法来利用人类生成表达的理解模块,以改进表达的生成质量,并在多个基准数据集上展示了改进效果。
Jan, 2017
构建了一个合成数据集 ComCOCO,其中包含了 34,615 个对象的 136,495 个自然语言表达的引用表达式,以及 23,951 个图像对的消除后的真实结果。我们进一步提出了一个端到端的语法感知混合映射网络,具有编码 - 解码结构。通过多头注意力在视觉特征的下采样过程中,以句法层次分层提取语言特征,并融合在一起。利用特征对齐的金字塔网络,生成分割掩模,并用从高层特征图中学习到的外部语义区域亲和性替换内部像素。大量实验证明,我们的模型在处理分割和修复任务的两个阶段的扩散模型和两阶段方法上,明显优于它们。
Mar, 2024