运用场景知识推进视觉连接:基准与方法
本文重新审视了 Johnson 等人于 2015 年提出的“使用场景图像检索单元进行图像检索”的图像 grounding 方法,发现该方法没有有效地使用其学习的物体-关系模型。同时,作者还研究了 IRSG 数据集和 VRD 数据集,并发现这些数据集存在偏差,容易让忽略关系的方法表现较好。作者通过对数据集进行子集处理等方法来解决这些问题,研究结果有助于更好地理解自然语言和视觉相结合的机器学习方法以及流行数据集测试的情况。
Apr, 2019
该论文提出了一种基于Transformer编码器-解码器的视觉 grounding 方法,通过在不损伤位置定位能力的前提下,在文本描述的指导下学习语义鉴别的视觉特征,具有强大的文本-视觉语境语义捕捉能力。实验结果表明,在保持快速推理速度的同时,该方法在五个基准上优于现有的提案-free 方法。
May, 2021
本研究提出了一种基于transformer的视觉定位框架,通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位,并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。
Apr, 2022
通过去噪扩散建模的语言引导扩散框架(LG-DVG)提出了一种逐步推理的视觉定位方法,可持续改进查询-区域匹配,在跨模态对齐任务中以生成方式解决视觉定位,并在多个数据集上验证其超凡性能。
Aug, 2023
基于大规模视觉-语言模型的弱监督学习方法,利用2D图像和3D点云之间天然存在的对应关系,无需精细标注的边界框注释,通过学习文本-3D对应,实现文本查询与3D目标物的关联。实验结果在ReferIt3D和ScanRefer数据集上表明,3D-VLA方法实现了与完全监督方法相当甚至更出色的效果。
Dec, 2023
Vision and Language Models (VLMs) have remarkable zero-shot performance, but struggle with compositional scene understanding and linguistic phrase grounding. This paper introduces novel quantitative metrics using GradCAM activations to evaluate pre-trained VLMs' grounding capabilities and measure their uncertainty, revealing tradeoffs between model size, dataset size, and performance.
Apr, 2024
本研究针对现有方法在多实例干扰下准确定位目标物体的挑战,提出了一种新的关系和语义敏感视觉定位模型(ResVG)。该模型通过注入来自文本查询的语义先验信息和实施关系敏感的数据增强方法,显著提高了对物体语义与空间关系的理解,从而在视觉定位任务中取得了更好的性能表现。
Aug, 2024
本研究针对现有视觉定位方法在复杂文本表达下性能显著下降的问题,提出了一种新的变换器基础框架SimVG。通过解耦视觉-语言特征融合并引入额外的对象标记,该方法显著提高了视觉定位的效率和收敛速度,同时在多个基准测试上达成了新的最先进性能。
Sep, 2024
本研究解决了多模态大语言模型(MLLMs)在实例级视觉语言问题上的局限性,提出了一种新的任务“多上下文视觉定位”。通过构建包含2K高质量标注样本的MC-Bench数据集,为评估MLLMs的能力提供了基准,研究发现现有MLLMs在多图场景下的表现显著低于人类,推动相关领域的进一步研究。
Oct, 2024