本文提出自由和开放的视觉问答(VQA)任务,旨在通过自然语言问题回答图片问题,涉及到图片理解、多种语言的回答以及数据集和评价方法。
May, 2015
提出一种基于单阶段模型的视觉 grounding 方法,将文本查询的嵌入与 YOLOv3 物体检测器融合,加入空间特征以处理查询中的空间提及,并实现端到端联合优化,实验表明此方法对于短语定位和指代表达理解具有很大的潜力,同时建议在一些常见的区域提议方法上进行细致研究并将视觉 grounding 作为从传统双阶段方法向单阶段框架的范例转移
Aug, 2019
本文调查了现代方法解决自然语言与计算机视觉领域中的指代表达理解问题,包括用于编码视觉和文本模态的机制,结构化图表示的模块化架构和基于图形的模型,以及针对小型数据集的结果,提出了复合指称表述理解方向的潜在未来研究方向。
Jul, 2020
提出一种递归子查询构建框架,解决当前一阶段视觉基础的限制,提高了长而复杂查询的精度,效果比现有一阶段基线模型在多个基准数据集上都有显著的提高。
Aug, 2020
本文提出一种名为Pseudo-Q的新颖方法来自动生成替代人工标注的伪语言查询,以此实现视觉定位目标的目的,通过任务相关的查询提示模块和跨模态多级注意力机制发展视觉语言模型。实验结果表明,该方法可大幅降低人力成本,同时表现出优异的弱监督式视觉定位性能。
Mar, 2022
本文提出了一个名为SeqTR的简单且通用的网络,用于视觉定位任务和指代表达理解任务,通过将视觉定位问题视为图像和文本输入的点预测问题,可以在SeqTR网络中统一视觉定位任务而无需任务特定的分支或头,使用简单的交叉熵损失进一步降低了手工损失函数的复杂性,并且在五个基准数据集上进行的实验证明了SeqTR的可行性和优越性。
本论文中,我们使用信息检索的方式来考虑VQA一类问题。我们提出了一种新的系统,利用图计算方法通过图像的场景图和问题中的区域表达式直接实现VG,实验结果表明,我们的系统在VG性能上表现最佳。
Nov, 2022
本论文探讨了通过考虑短语提取和定位对象来解决视觉 grounding 问题,提出了一种新颖的 DQ-DETR 模型,通过引入双重查询并设计共享位置部分而不同内容部分,使 Transformer 解码器借助短语掩码引导注意力以提高性能。
提出了一种用于长格式自我中心视频上识别和定位特定对象的单阶段VQL框架,该框架比之前的方法精度提高了20%,推断速度提高了10倍。
Jun, 2023
本研究的关键词是开放式词汇学习、视觉定位、新概念、语言描述和对象检测。通过引入新颖和具有挑战性的任务,即开放式视觉定位与开放式短语定位,这项研究的目标是在语言描述和新对象的定位之间建立联系。我们提出了一种新的框架来加强对新类别的识别,并增强视觉和语言信息之间的对齐。经过广泛的实验验证,我们的提议框架在开放式视觉定位任务上始终达到了最先进的性能。
Oct, 2023