基于协同注意力的情境识别 Transformer

CVPRMar, 2022

基于协同注意力的情境识别 Transformer

Collaborative Transformers for Grounded Situation Recognition

Junhyeong Cho, Youngseok Yoon, Suha Kwak

TL;DR本文提出了一种用于情境识别的新方法，称为 Collaborative Glance-Gaze TransFormer，该方法结合了活动分类和实体估计的互动和互补作用，使用 Glance transformer 和 Gaze transformer 两个模块来实现，其中，Glance transformer 利用 Gaze transformer 来帮助预测主要活动，而 Gaze transformer 在预测了 Glance transformer 预测的活动的前提下，只关注于与该活动相关的实体来估计实体坐标，并在 SWiG 数据集上实现了最新的性能。

Abstract

grounded situation recognition is the task of predicting the main activity, entities playing certain roles within the activity, and bounding-box groundings of the entities in the given image. To effectively deal with this challenging task, we introduce a novel approach where the two pr

grounded situation recognition activity classification entity estimation collaborative glance-gaze transformer swig dataset

发现论文，激发创造

使用 Transformers 进行基于场景的情境识别

本文将基于 Transformer 编码解码框架提出一种 Grounded Situation Recognition 模型，通过有效地捕获图像的高层语义特征实现动词的精确定位，进而在处理实体间复杂的、依赖于图像的关系时进行名词的分类和定位，实现了该领域的最新进展，并在 SWiG 基准测试中实现了优异的表现。

Nov, 2021

基于场景的情境识别

本文提出了 Grounded Situation Recognition（GSR）这一任务，研究如何利用图像来生成结构化的语义摘要，重点关注图像中的活动、相关主体的角色和范围、以及实例的语义示踪；通过在 Situation With Groundings（SWiG）数据集上测试，在端到端训练中联合预测场景和示踪方面，相对独立训练的性能提高了 8% 到 32% 之间的相对增益。

Mar, 2020

GSRFormer: 基于交替语义注意力精炼的基础情境识别转换器

本文提出了一种基于双向关系的新的两阶段框架，旨在利用动词和语义角色之间的双向关系，生成结构化的图像语义摘要，实现类人事件理解，实验结果表明该框架在挑战性的 SWiG 基准测试中优于其他最先进的方法。

Aug, 2022

重新思考基于场景的情境识别的双阶段框架

该论文提出了一种新的包含粗粒度到细粒度动词模型和基于 Transformer 的名词模型的 SituFormer 方法，用于地面情境识别，其全面探索了角色之间的统计依赖关系，相比其他方法在各种指标下具有显著性提升，代码公开可用。

Dec, 2021

基于 Actor-Transformers 的群体活动识别

本文提出一种基于 actor-transformer model 认知视频中的个人行为和组群活动的模型，并通过 2D 姿态网络和 3D CNN 等方式提供丰富的个人动态和静态信息表示，从而在公开数据集上取得了显著的效果。

Mar, 2020

GroupFormer: 带有空间 - 时间聚类 Transformer 的群体活动识别

本文引入 GroupFormer 网络解决团体动作识别中空间 - 时间交互作用的问题，采用聚类的空间 - 时间变换器动态地将个体群组化，模型个体和群组的特征，融合了空间 - 时间背景上下文信息。实验结果表明该模型优于现有状态的方法。

Aug, 2021

无检测器弱监督群体活动识别

本研究提出了一种新的基于 Transformer 模型的团队活动识别方法，该方法借助注意机制对部分环节进行定位与编码，再对其进行聚合以反映整个活动的完整背景和每个环节的时间演化，无需借助较强的监督方法，在两个基准测试中均表现良好。

Apr, 2022

ActFormer：通过主动查询实现可扩展的协作感知

本研究提出了一种基于 Transformer 的体系结构，旨在处理依靠摄像机协同感知的扩展性问题。该体系结构通过智能地辨别协作者及其相关摄像机的关联性，以学习的空间先验来主动理解视觉特征的相关性，从而提高通信和计算效率，实现多智能体协同三维物体检测的性能改进。

Mar, 2024

使用 Transformer 进行视觉定位

该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案 - free 方法。

May, 2021

使用 Transformer 挖掘线索进行社交群体活动识别

本论文提出了一种基于注意力模块和 transformers 模型的社交群组活动识别新框架，该方法在 Volleyball 和 Collective Activity 数据集上表现优于现有技术。

Jul, 2022