基于场景的情境识别

Mar, 2020

Grounded Situation Recognition

Sarah Pratt, Mark Yatskar, Luca Weihs, Ali Farhadi, Aniruddha Kembhavi

TL;DR本文提出了 Grounded Situation Recognition（GSR）这一任务，研究如何利用图像来生成结构化的语义摘要，重点关注图像中的活动、相关主体的角色和范围、以及实例的语义示踪；通过在 Situation With Groundings（SWiG）数据集上测试，在端到端训练中联合预测场景和示踪方面，相对独立训练的性能提高了 8% 到 32% 之间的相对增益。

Abstract

We introduce grounded situation recognition (GSR), a task that requires producing structured semantic summaries of images describing: the primary activity, →

grounded situation recognition semantic summaries entities bounding-box groundings end-to-end training

发现论文，激发创造

使用 Transformers 进行基于场景的情境识别

本文将基于 Transformer 编码解码框架提出一种 Grounded Situation Recognition 模型，通过有效地捕获图像的高层语义特征实现动词的精确定位，进而在处理实体间复杂的、依赖于图像的关系时进行名词的分类和定位，实现了该领域的最新进展，并在 SWiG 基准测试中实现了优异的表现。

Nov, 2021

GSRFormer: 基于交替语义注意力精炼的基础情境识别转换器

本文提出了一种基于双向关系的新的两阶段框架，旨在利用动词和语义角色之间的双向关系，生成结构化的图像语义摘要，实现类人事件理解，实验结果表明该框架在挑战性的 SWiG 基准测试中优于其他最先进的方法。

Aug, 2022

开放式场景理解：基于情景的认知结合图像分割技术，为视觉受损人群提供帮助

本研究提出了一种 Open Scene Understanding 系统，使用 GSR 和 SAM 来生成像素级密集分割掩模，旨在帮助视力受损者增强场景理解，并通过在 SWiG 数据集上的性能达到最新水平。

Jul, 2023

重新思考基于场景的情境识别的双阶段框架

该论文提出了一种新的包含粗粒度到细粒度动词模型和基于 Transformer 的名词模型的 SituFormer 方法，用于地面情境识别，其全面探索了角色之间的统计依赖关系，相比其他方法在各种指标下具有显著性提升，代码公开可用。

Dec, 2021

超越类别：通过语言解释实现零样本情境识别

通过引入 Language EXplainer (LEX) 方法，本文在 SWiG 数据集上验证了预训练的视觉语言模型在零样本场景理解和基于场景的情境识别方面的有效性和互操作性。

Apr, 2024

基于协同注意力的情境识别 Transformer

本文提出了一种用于情境识别的新方法，称为 Collaborative Glance-Gaze TransFormer，该方法结合了活动分类和实体估计的互动和互补作用，使用 Glance transformer 和 Gaze transformer 两个模块来实现，其中，Glance transformer 利用 Gaze transformer 来帮助预测主要活动，而 Gaze transformer 在预测了 Glance transformer 预测的活动的前提下，只关注于与该活动相关的实体来估计实体坐标，并在 SWiG 数据集上实现了最新的性能。

Mar, 2022

利用图神经网络进行情境识别

通过基于图神经网络的模型，我们能够有效捕捉语义角色之间的联合依赖关系，从而在预测图像中最显著的动词和填充其语义角色时取得显著提升，实验证明我们的方法在情境识别中表现优异。

Aug, 2017

视频中的视觉关系定位

本文介绍了一项新任务：视频中的视觉关系定位，目的是在视频中定位给定的主谓宾形式关系，以提供支持其他高级视频语言任务（例如视频语言基础和视频问答）。通过协同优化构建的两个区域序列以及关系关注和重构，我们进一步提出了通过视觉实体之间的空间注意力转移的消息传递机制以解决挑战。我们的模型不仅显着优于基线方法，而且能够产生具有视觉意义的事实以支持视觉基础。

Jul, 2020

自然语言查询下的零样本对象定位

本文介绍了一种基于自然语言查询的短语定位系统，将其从先前的具有特定名词约束扩展到零样本定位，并提出了使用单阶段模型 ZSGNet 来解决此问题，该模型结合了检测和定位系统并具有最先进的性能。

Aug, 2019

使用场景图进行增量式目标定位

本文介绍了一种基于场景图和语言结构的递增式 grounding 模型 (IGSG)，通过使用场景图中的对象之间的关系，构造问答对话方式以消除人类命令的歧义和错误，该模型在现实场景中表现出可接受的性能，可以有效地通过回问式问答消除歧义的问题。

Jan, 2022