利用图神经网络进行情境识别

ICCVAug, 2017

Situation Recognition with Graph Neural Networks

Ruiyu Li, Makarand Tapaswi, Renjie Liao, Jiaya Jia, Raquel Urtasun...

TL;DR通过基于图神经网络的模型，我们能够有效捕捉语义角色之间的联合依赖关系，从而在预测图像中最显著的动词和填充其语义角色时取得显著提升，实验证明我们的方法在情境识别中表现优异。

Abstract

We address the problem of recognizing situations in images. Given an image, the task is to predict the most salient verb (action), and fill its semantic roles such as who is performing the action, what is the source and target of the action, etc. Different verbs have different roles (e.g. attacking has weapon), and each role can take on many possible values

situation recognition image analysis graph neural networks semantic roles verb prediction

发现论文，激发创造

用于情境识别的循环模型

本文提出使用递归神经网络模型来预测结构化的 “图像情境”，进一步研究了行为和名词实体在动作相关的语义角色中的作用，并且创新性地使用了专门的动作预测网络，以及一个 RNN 来进行名词预测。相比于之前使用条件随机场的工作，我们的系统在最近的 imSitu 数据集上获得了最佳的准确性表现，并且将从情景预测中学习到的特征转移到图像字幕生成任务中，以便更准确地描述人 - 物互动。

Mar, 2017

GSRFormer: 基于交替语义注意力精炼的基础情境识别转换器

本文提出了一种基于双向关系的新的两阶段框架，旨在利用动词和语义角色之间的双向关系，生成结构化的图像语义摘要，实现类人事件理解，实验结果表明该框架在挑战性的 SWiG 基准测试中优于其他最先进的方法。

Aug, 2022

重新思考基于场景的情境识别的双阶段框架

该论文提出了一种新的包含粗粒度到细粒度动词模型和基于 Transformer 的名词模型的 SituFormer 方法，用于地面情境识别，其全面探索了角色之间的统计依赖关系，相比其他方法在各种指标下具有显著性提升，代码公开可用。

Dec, 2021

基于视觉符号图的视频理解表示学习

本文提出了一种基于两个图的模型，其中节点对应于演员和物体，边编码不同类型的交互，通过图神经网络在结果混合图上优化演员、物体及其交互的表示，该方法在 Charades 数据集上实现了最先进的效果，用于解决有关视频理解的挑战性任务，如时间动作定位。

May, 2019

使用 Transformers 进行基于场景的情境识别

本文将基于 Transformer 编码解码框架提出一种 Grounded Situation Recognition 模型，通过有效地捕获图像的高层语义特征实现动词的精确定位，进而在处理实体间复杂的、依赖于图像的关系时进行名词的分类和定位，实现了该领域的最新进展，并在 SWiG 基准测试中实现了优异的表现。

Nov, 2021

视觉语义角色标记

本文介绍了视觉语义角色标注的问题，即在给定图像的情况下，我们希望检测人们进行的动作并定位交互对象，为了实现这个目标，我们注释了一组数据集，并提供了一组基准算法来解决这个问题，并分析了错误模式，为未来的工作提供了方向。

May, 2015

通过推理高层次的语义关系概念改进情境图

本文介绍了如何使用图神经网络来学习从低级因子图中推断出的高级语义关系概念，提出了一个可以更准确、更高效地推断房间实体及其与映射墙面的关系的方法，同时演示了如何引入墙面的语义概念及其与墙面的关系。该方法已经集成到 S-Graphs + 中，并在模拟和实际数据集上进行了验证。我们将提供包含该软件的 Docker 容器供科学界使用。

Sep, 2023

MovieGraphs: 从视频中理解以人为中心的情境

本文介绍了一个名为 MovieGraphs 的数据集，用于收集电影片段中的社交情境，并探索了使用这个数据集进行情感识别、交互理解和原因理解的方法和相关研究。

Dec, 2017

用于视频理解的统一图结构模型

本文提出了一种基于信息传递的图神经网络，能够精确理解视频中行为者、对象和环境之间的关系，在显式表示对象时能够使用显式表示，否则使用隐含表示；在 AVA 和 UCF101-24 的时空行为检测以及最近的 Action Genome 数据集上的视频场景图分类等任务中，实现了最先进的结果，我们定量和定性的显示了我们的方法如何更有效地模拟场景中相关实体之间的关系。

Mar, 2021

关注关系网络：将图像映射到场景图

本研究提出了一种新颖的基于注意力机制的关系网络，其包含两个关键模块和一个目标检测主干以实现场景图自动生成，并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。

Nov, 2018