提出一种基于单阶段模型的视觉 grounding 方法,将文本查询的嵌入与 YOLOv3 物体检测器融合,加入空间特征以处理查询中的空间提及,并实现端到端联合优化,实验表明此方法对于短语定位和指代表达理解具有很大的潜力,同时建议在一些常见的区域提议方法上进行细致研究并将视觉 grounding 作为从传统双阶段方法向单阶段框架的范例转移
Aug, 2019
提出一种递归子查询构建框架,解决当前一阶段视觉基础的限制,提高了长而复杂查询的精度,效果比现有一阶段基线模型在多个基准数据集上都有显著的提高。
Aug, 2020
提出了一种语言引导的物体检测模型,使用底部和顶部的启发式信息来实现参考指称地面实体,同时获得了在流行的3D语言基础基准测试中的新的最先进的性能表现,与以前的技术相比显著提高。
Dec, 2021
本文提出了一个新的基准数据集SK-VG,其中图像内容和指代表达不足以确定目标对象,迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入,前者在图像查询交互之前将知识嵌入图像特征,后者利用语言结构来辅助计算图像文本匹配。通过大量实验证明了所提方法的可行性,并展示了他们取得的有希望的结果,但仍有改进的空间,包括性能和可解释性。
Jul, 2023
本研究的关键词是开放式词汇学习、视觉定位、新概念、语言描述和对象检测。通过引入新颖和具有挑战性的任务,即开放式视觉定位与开放式短语定位,这项研究的目标是在语言描述和新对象的定位之间建立联系。我们提出了一种新的框架来加强对新类别的识别,并增强视觉和语言信息之间的对齐。经过广泛的实验验证,我们的提议框架在开放式视觉定位任务上始终达到了最先进的性能。
Oct, 2023
使用视觉与语言模型、视觉解释方法和近义词进行微调,目标是提高定位能力和对象高亮质量。在多个数据集中,通过该方法相较于基线方法和之前的工作获得了显著的改进。
Dec, 2023
用全貌分割为基础,GROUNDHOG将多模态大型语言模型连接到实体标记,从而优化了语言到对象的关联,提升了视觉理解和诊断能力。
Feb, 2024
本文提出了一种懒惰视觉定位的两阶段方法,通过无监督对象掩膜发现和后续的对象定位,解决开放词汇语义分割的问题。该方法无需额外训练,在多个公共数据集上表现优异,显示出模型在精确定位对象方面的能力。
Aug, 2024
本研究针对现有方法在多实例干扰下准确定位目标物体的挑战,提出了一种新的关系和语义敏感视觉定位模型(ResVG)。该模型通过注入来自文本查询的语义先验信息和实施关系敏感的数据增强方法,显著提高了对物体语义与空间关系的理解,从而在视觉定位任务中取得了更好的性能表现。
本研究解决了多模态大语言模型(MLLMs)在实例级视觉语言问题上的局限性,提出了一种新的任务“多上下文视觉定位”。通过构建包含2K高质量标注样本的MC-Bench数据集,为评估MLLMs的能力提供了基准,研究发现现有MLLMs在多图场景下的表现显著低于人类,推动相关领域的进一步研究。
Oct, 2024