超越类别:通过语言解释实现零样本情境识别
本文提出了一种基于双向关系的新的两阶段框架,旨在利用动词和语义角色之间的双向关系,生成结构化的图像语义摘要,实现类人事件理解,实验结果表明该框架在挑战性的 SWiG 基准测试中优于其他最先进的方法。
Aug, 2022
该论文提出了一种新的包含粗粒度到细粒度动词模型和基于 Transformer 的名词模型的 SituFormer 方法,用于地面情境识别,其全面探索了角色之间的统计依赖关系,相比其他方法在各种指标下具有显著性提升,代码公开可用。
Dec, 2021
本文将基于 Transformer 编码解码框架提出一种 Grounded Situation Recognition 模型,通过有效地捕获图像的高层语义特征实现动词的精确定位,进而在处理实体间复杂的、依赖于图像的关系时进行名词的分类和定位,实现了该领域的最新进展,并在 SWiG 基准测试中实现了优异的表现。
Nov, 2021
本文提出了 Grounded Situation Recognition(GSR)这一任务,研究如何利用图像来生成结构化的语义摘要,重点关注图像中的活动、相关主体的角色和范围、以及实例的语义示踪;通过在 Situation With Groundings(SWiG)数据集上测试,在端到端训练中联合预测场景和示踪方面,相对独立训练的性能提高了 8% 到 32% 之间的相对增益。
Mar, 2020
Vision and Language Models (VLMs) have remarkable zero-shot performance, but struggle with compositional scene understanding and linguistic phrase grounding. This paper introduces novel quantitative metrics using GradCAM activations to evaluate pre-trained VLMs' grounding capabilities and measure their uncertainty, revealing tradeoffs between model size, dataset size, and performance.
Apr, 2024
通过现有的图像 - 文本配对模型和纯物体检测数据,我们提出了一种名为 GroundVLP 的简单而有效的零样本方法,该方法结合了 GradCAM 热力图和开放词汇检测器的对象提案,用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战,实验结果显示该方法在 RefCOCO/+/g 数据集上超过了现有零样本方法的 28%,并且在 Flickr30k 实体数据集上与一些非 VLP 的有监督模型表现相当甚至更好。
Dec, 2023
本文介绍了一种名为 GRILL 的 VL 模型,能够通过利用物体 - 文本对齐来学习对象对齐与定位,从而在零个或很少的训练实例下,推广到各种零 / 几 - shot 任务,包括视觉问答、字幕和定位任务。评估表明,GRILL 模型 consistently surpasses 了现有的几种有限 / 几 - shot 方法。
May, 2023
采用预训练的视觉 - 语言模型,并借助 Grounding Everything Module (GEM) 的自我 - 自我注意机制,可以实现无需微调的零样本开放词汇的目标定位,并通过一系列正则化方法进一步提高模型的泛化能力。在各种基准任务和语义分割数据集上评估 GEM 框架,结果表明 GEM 不仅胜过其他无需训练的开放词汇定位方法,而且在最近提出的 OpenImagesV7 大规模分割基准测试中取得了最先进的结果。
Dec, 2023
本文研究视觉与语言模型在零样本视觉识别任务中的应用难点,并针对对比视觉 - 语言模型(CLIP)等模型进行探讨。研究表明,模型更擅长识别细粒度概念,并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法,以评估其学习性偏差问题,并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战,并为进一步提高其零样本能力提出了方向建议。
Jun, 2023
本文介绍了一种基于自然语言查询的短语定位系统,将其从先前的具有特定名词约束扩展到零样本定位,并提出了使用单阶段模型 ZSGNet 来解决此问题,该模型结合了检测和定位系统并具有最先进的性能。
Aug, 2019