重新思考基于场景的情境识别的双阶段框架

AAAIDec, 2021

重新思考基于场景的情境识别的双阶段框架

Rethinking the Two-Stage Framework for Grounded Situation Recognition

Meng Wei, Long Chen, Wei Ji, Xiaoyu Yue, Tat-Seng Chua

TL;DR该论文提出了一种新的包含粗粒度到细粒度动词模型和基于 Transformer 的名词模型的 SituFormer 方法，用于地面情境识别，其全面探索了角色之间的统计依赖关系，相比其他方法在各种指标下具有显著性提升，代码公开可用。

Abstract

grounded situation recognition (GSR), i.e., recognizing the salient activity (or verb) category in an image (e.g., buying) and detecting all corresponding semantic roles (e.g., agent and goods), is an essential step towards "human-like" →

grounded situation recognition event understanding verb classification semantic role detection situformer

发现论文，激发创造

GSRFormer: 基于交替语义注意力精炼的基础情境识别转换器

本文提出了一种基于双向关系的新的两阶段框架，旨在利用动词和语义角色之间的双向关系，生成结构化的图像语义摘要，实现类人事件理解，实验结果表明该框架在挑战性的 SWiG 基准测试中优于其他最先进的方法。

Aug, 2022

使用 Transformers 进行基于场景的情境识别

本文将基于 Transformer 编码解码框架提出一种 Grounded Situation Recognition 模型，通过有效地捕获图像的高层语义特征实现动词的精确定位，进而在处理实体间复杂的、依赖于图像的关系时进行名词的分类和定位，实现了该领域的最新进展，并在 SWiG 基准测试中实现了优异的表现。

Nov, 2021

超越类别：通过语言解释实现零样本情境识别

通过引入 Language EXplainer (LEX) 方法，本文在 SWiG 数据集上验证了预训练的视觉语言模型在零样本场景理解和基于场景的情境识别方面的有效性和互操作性。

Apr, 2024

基于场景的情境识别

本文提出了 Grounded Situation Recognition（GSR）这一任务，研究如何利用图像来生成结构化的语义摘要，重点关注图像中的活动、相关主体的角色和范围、以及实例的语义示踪；通过在 Situation With Groundings（SWiG）数据集上测试，在端到端训练中联合预测场景和示踪方面，相对独立训练的性能提高了 8% 到 32% 之间的相对增益。

Mar, 2020

利用图神经网络进行情境识别

通过基于图神经网络的模型，我们能够有效捕捉语义角色之间的联合依赖关系，从而在预测图像中最显著的动词和填充其语义角色时取得显著提升，实验证明我们的方法在情境识别中表现优异。

Aug, 2017

开放式场景理解：基于情景的认知结合图像分割技术，为视觉受损人群提供帮助

本研究提出了一种 Open Scene Understanding 系统，使用 GSR 和 SAM 来生成像素级密集分割掩模，旨在帮助视力受损者增强场景理解，并通过在 SWiG 数据集上的性能达到最新水平。

Jul, 2023

基于协同注意力的情境识别 Transformer

本文提出了一种用于情境识别的新方法，称为 Collaborative Glance-Gaze TransFormer，该方法结合了活动分类和实体估计的互动和互补作用，使用 Glance transformer 和 Gaze transformer 两个模块来实现，其中，Glance transformer 利用 Gaze transformer 来帮助预测主要活动，而 Gaze transformer 在预测了 Glance transformer 预测的活动的前提下，只关注于与该活动相关的实体来估计实体坐标，并在 SWiG 数据集上实现了最新的性能。

Mar, 2022

使用 Transformer 进行视觉定位

该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案 - free 方法。

May, 2021

怀疑对象的重要性：重新思考单阶段视觉定位模型的预测

本文提出了一个基于可疑对象图和关键词感知节点表示的一阶视觉定位的方法，用于解决在一阶视觉定位中由于可疑对象的存在导致模型预测错误的问题，并在广泛的基准测试中展示了其有效性。

Mar, 2022

基于 LLM 的改进和基于框的分割的地面多模态命名实体识别的推进

提出了 RiVEG，这是一个统一的框架，将 GMNER 转化为联合的 MNER-VE-VG 任务，通过利用大型语言模型作为连接桥梁，解决了 GMNER 任务中存在的挑战，并通过构建新的 SMNER 任务和 Twitter-SMNER 数据集，实验证明了框架的可行性和有效性。

Jun, 2024