上下文解缠和原型继承的鲁棒视觉定位
该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法,通过在不损伤位置定位能力的前提下,在文本描述的指导下学习语义鉴别的视觉特征,具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明,在保持快速推理速度的同时,该方法在五个基准上优于现有的提案 - free 方法。
May, 2021
本研究提出了一种基于 transformer 的视觉定位框架,通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位,并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。
Apr, 2022
本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系,以及跨模态图匹配策略来解决多短语视觉定位任务,实验证明我们的方法优于现有技术,并提供了开源代码。
Nov, 2019
本研究的关键词是开放式词汇学习、视觉定位、新概念、语言描述和对象检测。通过引入新颖和具有挑战性的任务,即开放式视觉定位与开放式短语定位,这项研究的目标是在语言描述和新对象的定位之间建立联系。我们提出了一种新的框架来加强对新类别的识别,并增强视觉和语言信息之间的对齐。经过广泛的实验验证,我们的提议框架在开放式视觉定位任务上始终达到了最先进的性能。
Oct, 2023
本文提出了一种基于图学习的新型短语图片对齐的框架,通过设计分离的图网络来区分场景图中的不同元素,添加干预策略并采用跨模态注意力网络来提高性能,实验结果表明模型在 Flickr30KEntities 和 ReferIt Game 基准数据集上达到了最先进的性能水平。
Apr, 2021
提出了一种上下文引导的时空视频定位方法(CG-STVG),通过挖掘视频中的实例上下文信息作为目标定位的辅助指导,并通过消除不相关或有害信息来改进实例上下文,从而提高目标的准确性。在三个基准测试上,包括 HCSTVG-v1/-v2 和 VidSTG,CG-STVG 在 m_tIoU 和 m_vIoU 上都取得了新的最优结果,显示了其有效性。
Jan, 2024
我们介绍了一项新的任务,使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言,我们构建了一个大规模数据集 Mono3DRefer,其中包含具有对应的几何文本描述的 3D 目标,由 ChatGPT 生成并手动改进。为了促进此任务,我们提出了 Mono3DVG-TR,一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器,用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力,解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布:this https URL。
Dec, 2023
通过去噪扩散建模的语言引导扩散框架(LG-DVG)提出了一种逐步推理的视觉定位方法,可持续改进查询 - 区域匹配,在跨模态对齐任务中以生成方式解决视觉定位,并在多个数据集上验证其超凡性能。
Aug, 2023
本研究采用变分贝叶斯方法来解决在图像中定位和链接指称表述时复杂上下文建模的问题,并考虑语义信息和上下文的相互关系以及在监督和非监督设置中的提高。
Jul, 2019
通过引入迭代的鲁棒视觉定位框架,以及基于屏蔽参考点的中心化监督和多阶段假警敏感解码器,该研究提出了一种在给定表达式的情况下从图像中定位目标对象的方法,以提高可靠性和准确性,并在实验中展示了其在常规和鲁棒视觉定位数据集上的较好结果。
Jul, 2023