超越类别：通过语言解释实现零样本情境识别

Apr, 2024

超越类别：通过语言解释实现零样本情境识别

Seeing Beyond Classes: Zero-Shot Grounded Situation Recognition via Language Explainer

Jiaming Lei, Lin Li, Chunping Wang, Jun Xiao, Long Chen

TL;DR通过引入 Language EXplainer (LEX) 方法，本文在 SWiG 数据集上验证了预训练的视觉语言模型在零样本场景理解和基于场景的情境识别方面的有效性和互操作性。

Abstract

Benefiting from strong generalization ability, pre-trained vision language models (VLMs), e.g., CLIP, have been widely utilized in zero-shot scene understanding. Unlike simple recognition tasks, grounded situation recognition (GSR) requires the model not only to classify salient activi

pre-trained vision language models zero-shot scene understanding grounded situation recognition language explainer (lex)swig dataset

发现论文，激发创造

GSRFormer: 基于交替语义注意力精炼的基础情境识别转换器

本文提出了一种基于双向关系的新的两阶段框架，旨在利用动词和语义角色之间的双向关系，生成结构化的图像语义摘要，实现类人事件理解，实验结果表明该框架在挑战性的 SWiG 基准测试中优于其他最先进的方法。

Aug, 2022

重新思考基于场景的情境识别的双阶段框架

该论文提出了一种新的包含粗粒度到细粒度动词模型和基于 Transformer 的名词模型的 SituFormer 方法，用于地面情境识别，其全面探索了角色之间的统计依赖关系，相比其他方法在各种指标下具有显著性提升，代码公开可用。

Dec, 2021

使用 Transformers 进行基于场景的情境识别

本文将基于 Transformer 编码解码框架提出一种 Grounded Situation Recognition 模型，通过有效地捕获图像的高层语义特征实现动词的精确定位，进而在处理实体间复杂的、依赖于图像的关系时进行名词的分类和定位，实现了该领域的最新进展，并在 SWiG 基准测试中实现了优异的表现。

Nov, 2021

基于场景的情境识别

本文提出了 Grounded Situation Recognition（GSR）这一任务，研究如何利用图像来生成结构化的语义摘要，重点关注图像中的活动、相关主体的角色和范围、以及实例的语义示踪；通过在 Situation With Groundings（SWiG）数据集上测试，在端到端训练中联合预测场景和示踪方面，相对独立训练的性能提高了 8% 到 32% 之间的相对增益。

Mar, 2020

Q-GroundCAM: 通过 GradCAM 度量视觉语言模型中的基准化能力

Vision and Language Models (VLMs) have remarkable zero-shot performance, but struggle with compositional scene understanding and linguistic phrase grounding. This paper introduces novel quantitative metrics using GradCAM activations to evaluate pre-trained VLMs' grounding capabilities and measure their uncertainty, revealing tradeoffs between model size, dataset size, and performance.

Apr, 2024

GroundVLP：从视觉语言预训练和开放词汇对象检测中利用零样本视觉定位

通过现有的图像 - 文本配对模型和纯物体检测数据，我们提出了一种名为 GroundVLP 的简单而有效的零样本方法，该方法结合了 GradCAM 热力图和开放词汇检测器的对象提案，用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战，实验结果显示该方法在 RefCOCO/+/g 数据集上超过了现有零样本方法的 28％，并且在 Flickr30k 实体数据集上与一些非 VLP 的有监督模型表现相当甚至更好。

Dec, 2023

GRILL: 基于文本和图像区域对齐的视觉 - 语言预训练

本文介绍了一种名为 GRILL 的 VL 模型，能够通过利用物体 - 文本对齐来学习对象对齐与定位，从而在零个或很少的训练实例下，推广到各种零 / 几 - shot 任务，包括视觉问答、字幕和定位任务。评估表明，GRILL 模型 consistently surpasses 了现有的几种有限 / 几 - shot 方法。

May, 2023

基于视觉语言变换器的新兴定位特性

采用预训练的视觉 - 语言模型，并借助 Grounding Everything Module (GEM) 的自我 - 自我注意机制，可以实现无需微调的零样本开放词汇的目标定位，并通过一系列正则化方法进一步提高模型的泛化能力。在各种基准任务和语义分割数据集上评估 GEM 框架，结果表明 GEM 不仅胜过其他无需训练的开放词汇定位方法，而且在最近提出的 OpenImagesV7 大规模分割基准测试中取得了最先进的结果。

Dec, 2023

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

自然语言查询下的零样本对象定位

本文介绍了一种基于自然语言查询的短语定位系统，将其从先前的具有特定名词约束扩展到零样本定位，并提出了使用单阶段模型 ZSGNet 来解决此问题，该模型结合了检测和定位系统并具有最先进的性能。

Aug, 2019