使用 Transformers 进行基于场景的情境识别

Nov, 2021

使用 Transformers 进行基于场景的情境识别

Grounded Situation Recognition with Transformers

Junhyeong Cho, Youngseok Yoon, Hyeonjun Lee, Suha Kwak

TL;DR本文将基于 Transformer 编码解码框架提出一种 Grounded Situation Recognition 模型，通过有效地捕获图像的高层语义特征实现动词的精确定位，进而在处理实体间复杂的、依赖于图像的关系时进行名词的分类和定位，实现了该领域的最新进展，并在 SWiG 基准测试中实现了优异的表现。

Abstract

grounded situation recognition (GSR) is the task that not only classifies a salient action (verb), but also predicts entities (nouns) associated with semantic roles and their locations in the given image. Inspired by the remarkable success of Transformers in vision tasks, we propose a

grounded situation recognition transformer encoder-decoder architecture semantic feature swig benchmark

发现论文，激发创造

GSRFormer: 基于交替语义注意力精炼的基础情境识别转换器

本文提出了一种基于双向关系的新的两阶段框架，旨在利用动词和语义角色之间的双向关系，生成结构化的图像语义摘要，实现类人事件理解，实验结果表明该框架在挑战性的 SWiG 基准测试中优于其他最先进的方法。

Aug, 2022

基于场景的情境识别

本文提出了 Grounded Situation Recognition（GSR）这一任务，研究如何利用图像来生成结构化的语义摘要，重点关注图像中的活动、相关主体的角色和范围、以及实例的语义示踪；通过在 Situation With Groundings（SWiG）数据集上测试，在端到端训练中联合预测场景和示踪方面，相对独立训练的性能提高了 8% 到 32% 之间的相对增益。

Mar, 2020

重新思考基于场景的情境识别的双阶段框架

该论文提出了一种新的包含粗粒度到细粒度动词模型和基于 Transformer 的名词模型的 SituFormer 方法，用于地面情境识别，其全面探索了角色之间的统计依赖关系，相比其他方法在各种指标下具有显著性提升，代码公开可用。

Dec, 2021

开放式场景理解：基于情景的认知结合图像分割技术，为视觉受损人群提供帮助

本研究提出了一种 Open Scene Understanding 系统，使用 GSR 和 SAM 来生成像素级密集分割掩模，旨在帮助视力受损者增强场景理解，并通过在 SWiG 数据集上的性能达到最新水平。

Jul, 2023

超越类别：通过语言解释实现零样本情境识别

通过引入 Language EXplainer (LEX) 方法，本文在 SWiG 数据集上验证了预训练的视觉语言模型在零样本场景理解和基于场景的情境识别方面的有效性和互操作性。

Apr, 2024

基于协同注意力的情境识别 Transformer

本文提出了一种用于情境识别的新方法，称为 Collaborative Glance-Gaze TransFormer，该方法结合了活动分类和实体估计的互动和互补作用，使用 Glance transformer 和 Gaze transformer 两个模块来实现，其中，Glance transformer 利用 Gaze transformer 来帮助预测主要活动，而 Gaze transformer 在预测了 Glance transformer 预测的活动的前提下，只关注于与该活动相关的实体来估计实体坐标，并在 SWiG 数据集上实现了最新的性能。

Mar, 2022

使用 Transformer 进行视觉定位

该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案 - free 方法。

May, 2021

利用图神经网络进行情境识别

通过基于图神经网络的模型，我们能够有效捕捉语义角色之间的联合依赖关系，从而在预测图像中最显著的动词和填充其语义角色时取得显著提升，实验证明我们的方法在情境识别中表现优异。

Aug, 2017

多模态 Transformer 在视频锚定中的设计追求

本篇论文提出了一种新型的端到端、多模态 Transformer 模型 ——GTR，通过将视频定位看作一个集合预测任务来实现，采用立方体嵌入层将原始视频转换为视觉令牌；在解码器中，采用新型的多头跨模态注意力机制来更好地融合两种模态，整个模型的优化采用 Many-to-One 匹配损失函数，实现了记录性能和较快的推理速度，获得更好的结果。

Sep, 2021

引用变压器：一种多任务视觉基础的一步方法

本次研究提出了一个基于 transformer 架构的单阶段多任务模型，通过融合视觉和语言输入，实现了高度语义转换的视觉语言解析，通过上下文信息和多任务学习，该模型在包括命名实体识别等任务上，取得了比现有方法更加突出的性能优势。

Jun, 2021