动态场景图生成的时空变换器

ICCVJul, 2021

Spatial-Temporal Transformer for Dynamic Scene Graph Generation

Yuren Cong, Wentong Liao, Hanno Ackermann, Bodo Rosenhahn, Michael Ying Yang

TL;DR本文提出了一种基于空间 - 时间变换器 (STTran) 的神经网络，用于生成给定视频的动态场景图。STTran 包括一个空间编码器和一个时间解码器，能够有效地捕捉对象之间的视觉关系和帧之间的时间依赖。与已有方法相比，我们的方法在 Action Genome 数据集上表现出了更好的性能。

Abstract

dynamic scene graph generation aims at generating a scene graph of the given video. Compared to the task of scene graph generation from images, it is more challenging because of the dynamic relationships between objects and the →

dynamic scene graph generation spatial-temporal transformer neural network visual relationships temporal dependencies

发现论文，激发创造

基于骨骼的动作识别的时空转换器网络

本文提出了一种新的空时变换器网络（ST-TR），该网络利用 Transformer 自我注意机制对 3D 骨架中的关节之间的依赖关系进行建模。空间自我注意模块（SSA）用于理解不同身体部位之间的帧内相互作用，而时间自我注意模块（TSA）用于建模帧间的相关性。两个模块在两个流网络中被结合使用，对 NTU-RGB + D 60 和 NTU-RGB + D 120 上的相同输入数据优于同类基准模型。

Dec, 2020

视频场景图生成的时空知识嵌入 Transformer

提出了一种将空间 - 时间知识嵌入到多头交叉注意力机制中的空间 - 时间知识嵌入变压器（STKET）模型，用于生成视频场景图并预测语义标签及其关系。经过广泛实验表明，STKET 在不同设置下相对于当前算法的 mR@50 提升了 8.1％，4.7％和 2.1％。

Sep, 2023

基于空间和时间变换器网络的基于骨架的动作识别

本文提出了一种基于 Spatial-Temporal Transformer 网络的骨骼姿态行为识别方法，使用自注意力机制成功提取了骨骼运动及其相关性的信息，与其他同类算法相比在多个大规模数据集上表现出更好的精度。

Aug, 2020

跨模态时变关系学习用于生成动态场景图

本研究提出了一种 Time-variant Relation-aware TRansformer（TR^2）模型，通过学习提示句子中关系标签的嵌入差异，实现了跨模态特征指导，设计了一个关系特征融合模块与转换器以及描述相邻帧之间差异的额外信息令牌，以有效建模动态场景图中的时变关系，实验证明其在 Action Genome 数据集上的表现优于之前最先进研究方法。

May, 2023

交通流量预测的时空转换网络

本文提出了一种新的空间 - 时间变换网络的范例来改善长期交通预测的准确性，其中使用图神经网络和自注意机制来动态建模交通数据中的有向空间相关性，并利用跨多个时间步骤的长程双向时间依赖性。实验证明，该模型在 Real-world 数据集上预测交通流量方面的性能要好于现有工作。

Jan, 2020

基于时空变换器的视频行人重新识别

本研究将 Transformer 应用于基于视频的人体再识别，提出一种新的基于预训练的模型，并使用感知约束的时空 Transformer 模块和全局 Transformer 模块转换到下游域，取得了显著的准确率提高。

Mar, 2021

基于时空变换器的视频压缩框架

空间 - 时间变换器 (STT-VC) 是通过整合放松可变形变换器 (RDT)、多粒度预测 (MGP) 模块和基于空间特征分布先验的变换器 (SFD-T) 来提高学习视频压缩 (LVC) 的性能。实验结果表明，该方法相比于现有技术在 BD-Rate 节省上获得了 13.5% 的最佳结果。

Sep, 2023

时空图散射变换

提出一种基于数学设计的空时图散射转换（ST-GST），将传统散射变换扩展到空时领域，通过使用空时图小波和非线性激活函数的迭代应用，对空时数据进行分析，不需要训练即可视为空时图卷积网络的正向传递，在限制的训练数据情况下表现出稳定性，实验表明其性能优于空时图卷积网络。

Dec, 2020

基于骨架的动作识别中的时空元组变换

提出了一种新的时空元组 Transformer（STTFormer）方法，该方法着重解决了现有的基于 Transformer 的方法不能捕获帧之间不同关节之间的相关性的问题，在两个大型数据集上的表现优于现有技术方法。

Jan, 2022

时间至上：为视频 Transformer 提供时间自监督

本文提出了一种面向视频任务的基于 Transformer 的模型，通过自监督学习并增加对视频帧之间时间轴的考虑，有效地消除了空间偏差，提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。

Jul, 2022