邻域监视:基于语言引导图注意力网络的指代表达理解
提出了一个基于多类型注意力机制的网络框架,可以在自然语言对话中,基于变长的自然语言表述,快速准确地识别图像中被指称的对象,该方法在多个基准测试集上性能卓越。
Nov, 2017
本文提出了一种通过使用模块化组件和多种注意力机制,实现对自然语言描述的图像区域定位的方法,该方法在特征抽象、指向性和篮球场景等任务中都优于以往最先进的模型。
Jan, 2018
本文提出了一种新的端到端模型Single-Stage Grounding network(SSG),用于在图像内定位所指物体,通过多模态交互器和定位器来处理一个指代表达式,提出了引导注意机制和预测视觉属性信息来提高模型性能,并在RefCOCO,RefCOCO +和RefCOCOg数据集上进行了实验,结果表明设备效率高,能在很短时间内完成对所指物体的定位。
Dec, 2018
本论文提出了一种新的Realtime Cross-modality Correlation Filtering方法(RCCF),将指称表达理解重新表述为一种相关滤波过程,使得物体的定位更准确,在RefClef、RefCOCO、RefCOCO+和RefCOCOg基准测试中取得领先的性能,通过RCCF方法,我们的模型可以在40 FPS的速度下实现了超过之前最好结果的性能。
Sep, 2019
本文探讨了语言驱动的视觉推理的问题,提出了一种动态图注意力网络来执行多步推理,并针对复杂的语言表达能力生成可解释的视觉证据。实验结果表明,所提出的方法不仅可以显着超过三个常见基准数据集上的所有现有最新算法,而且还能生成可解释的视觉证据来逐步地定位所描述的物体。
Sep, 2019
本文介绍了一种通过端到端可训练的理解网络,由语言和视觉编码器组成,从语言和图像领域提取特征表示,提出了空间感知动态滤波器来转移文本到图像的知识并有效捕获指定对象的空间信息,并采用生成的字幕网络来加强语言和视觉模块之间的通信以及改进两者的表示,在两个数据集上评估了所提出的框架,并表明该方法在状态-of-the-art算法中表现良好。
Oct, 2019
本研究提出一种新的场景下基于规约表达理解的视觉推理数据集,其中使用可灵活组合丰富的视觉属性和多种推理逻辑的新颖表达式引擎生成表达式,并添加额外干扰图像以实现更深层次的视觉推理分析,评估了多种最新的规约表达理解模型,但发现没有一种能够达到良好的表现,提出的模块化较难样本挖掘策略效果最佳,但仍有改进的空间。
Mar, 2020
本研究提出了基于场景图的模块化网络(SGMN)来解决指代表达式的 grounding 问题,并且设计出了一个大规模实验数据集Ref-Reasoning,证明了该方法在这个数据集上的优越性。
Apr, 2020
本文调查了现代方法解决自然语言与计算机视觉领域中的指代表达理解问题,包括用于编码视觉和文本模态的机制,结构化图表示的模块化架构和基于图形的模型,以及针对小型数据集的结果,提出了复合指称表述理解方向的潜在未来研究方向。
Jul, 2020
本文提出了一种名为语言自适应动态子网(LADS)的框架,可以从REC模型中提取依赖于表达式的语言自适应子网。通过使用紧凑的子网,推理可以更加经济高效,实验证明该方法可以在RefCOCO、RefCOCO +、RefCOCOg和Referit上提高推理速度和准确率。
Jun, 2023