递归子查询构建提升单阶段视觉定位
提出一种基于单阶段模型的视觉 grounding 方法,将文本查询的嵌入与 YOLOv3 物体检测器融合,加入空间特征以处理查询中的空间提及,并实现端到端联合优化,实验表明此方法对于短语定位和指代表达理解具有很大的潜力,同时建议在一些常见的区域提议方法上进行细致研究并将视觉 grounding 作为从传统双阶段方法向单阶段框架的范例转移
Aug, 2019
本文提出了一种新的端到端模型 Single-Stage Grounding network(SSG),用于在图像内定位所指物体,通过多模态交互器和定位器来处理一个指代表达式,提出了引导注意机制和预测视觉属性信息来提高模型性能,并在 RefCOCO,RefCOCO + 和 RefCOCOg 数据集上进行了实验,结果表明设备效率高,能在很短时间内完成对所指物体的定位。
Dec, 2018
本次研究提出了一个基于 transformer 架构的单阶段多任务模型,通过融合视觉和语言输入,实现了高度语义转换的视觉语言解析,通过上下文信息和多任务学习,该模型在包括命名实体识别等任务上,取得了比现有方法更加突出的性能优势。
Jun, 2021
本文提出了一个基于可疑对象图和关键词感知节点表示的一阶视觉定位的方法,用于解决在一阶视觉定位中由于可疑对象的存在导致模型预测错误的问题,并在广泛的基准测试中展示了其有效性。
Mar, 2022
本文提出一种用于单视角 RGBD 图像的三维视觉定位的新方法,该方法采用从底层融合语言和视觉特征生成热图的方式来粗略定位相关区域,然后通过自适应特征学习和对象级匹配,并结合另一种视觉语言融合来最终定位被引用的对象。该方法在 ScanRefer 数据集和 SUNRefer 数据集上的实验证明,与现有方法相比,在两个数据集上均取得了较大的 [email protected] 提升(分别提升 11.2% 和 15.6%)。
Mar, 2021
本研究提出了一种基于 transformer 的视觉定位框架,通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位,并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。
Apr, 2022
本文提出了一个新的基准数据集 SK-VG,其中图像内容和指代表达不足以确定目标对象,迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入,前者在图像查询交互之前将知识嵌入图像特征,后者利用语言结构来辅助计算图像文本匹配。通过大量实验证明了所提方法的可行性,并展示了他们取得的有希望的结果,但仍有改进的空间,包括性能和可解释性。
Jul, 2023
本文提出了一种 Query-modulated Refinement Network(QRNet)来处理视觉特征与多模态推理中所需特征的不一致性,包括 Query-aware Dynamic Attention(QD-ATT)机制和多尺度融合。实验表明,该方法在五个广泛使用的数据集上的表现优于现有的最先进方法。
Mar, 2022