稳健视频特征提取的时空提示网络

Feb, 2024

稳健视频特征提取的时空提示网络

Spatio-temporal Prompting Network for Robust Video Feature Extraction

Guanxiong Sun, Chi Wang, Zhaoyu Zhang, Jiankang Deng, Stefanos Zafeiriou...

TL;DR帧质量下降是视频理解领域中的主要挑战之一。为了弥补由于帧质量下降而引起的信息损失，最近的方法利用基于 Transformer 的集成模块来获得时空信息。然而，这些集成模块过于复杂和繁重。在本文中，我们提出了一个简洁且统一的框架，称为时空提示网络 (STPN)。它通过动态调整骨干网络中的输入特征，可以高效地提取稳健准确的视频特征。此外，STPN 易于推广到各种视频任务，因为它不包含任务特定的模块。没有花哨的设计，STPN 在三个广泛使用的数据集上取得了最先进的性能，涵盖了不同的视频理解任务，例如用于视频对象检测的 ImageNetVID，用于视频实例分割的 YouTubeVIS 以及用于视觉目标跟踪的 GOT-10k。

Abstract

frame quality deterioration is one of the main challenges in the field of video understanding. To compensate for the information loss caused by deteriorated frames, recent approaches exploit transformer-based int

frame quality deterioration video understanding transformer-based integration modules spatio-temporal prompting network video feature extraction

发现论文，激发创造

基于 Prompt 的时空图迁移学习

提出了一个基于提示增强的跨时空图转移学习框架，适应数据稀缺领域中的多样任务，在三个下游任务预测、克里金插值和外推中明显优于现有基线方法。

May, 2024

STF：时空融合模块提升视频目标检测

通过利用视频中连续帧的冗余和相关的互补信息，我们提出了一个时空融合框架，其中包括多帧和单帧关注模块，以及可学习地合并特征图以改进物体检测性能的双帧融合模块。实验证明，该融合模块相比基线物体检测器能够提高检测性能。

Feb, 2024

学习视频修复的联合时空变换

本篇论文提出了一种基于自注意力机制和空间 - 时间转换网络的视频修复方法，通过对所有输入帧进行自注意力填充缺失区域，并提出利用空间 - 时间对抗损失进行优化的方法，从而在定量和定性方面证明了该模型的优越性。

Jul, 2020

PromptST: 提示增强的时空多属性预测

在信息爆炸时代，时空数据挖掘作为城市管理的关键部分，通过同时预测多个时空属性，可以减轻监管压力，推动智能城市建设。本文提出了一种针对时空多属性预测的有效解决方案，PromptST，通过时空变换器和参数共享训练机制来处理不同时空属性之间的共同知识，以及一种轻量级时空指令调优策略来适应特定属性。通过预训练和指令调优阶段，PromptST 能够增强对特定时空特征的捕捉能力，并保持已学习的共同知识。在真实数据集上进行的广泛实验证明，PromptST 达到了最先进的性能。此外，我们还证明 PromptST 在未见过的时空属性上具有很高的可迁移性，为城市计算带来了有前景的应用潜力。实现代码可用于方便的复现。

Sep, 2023

使用时空采样网络的视频物体检测

本文提出了一个名为 Spatiotemporal Sampling Network (STSN) 的模型，使用了时间上的可变卷积，在视频中进行目标检测。通过从相邻的帧中学习空间采样特征，本文展示了 STSN 具有鲁棒性，并且不需要额外的监督。该模型在 ImageNet VID 数据集上表现优异，并且相比于之前的视频目标检测方法，本文的方法利用了更简单的设计且对于训练没有光流数据的要求。

Mar, 2018

PTSEFormer: 渐进式时空增强 Transformer 用于视频目标检测

本论文提出了一种基于 PTSEFormer 的对象检测方法，该方法引入了上下文框架、时间信息、空间信息来提高模型性能，其通过注意力机制与视觉特征的集成实现时间信息的引入，同时通过 Spatial Transition Awareness Model 实现了上下文特征之间的空间信息的集成，最终在 ImageNet VID 数据集上取得了 88.1% mAP 的表现。

Sep, 2022

LSTP：语言引导的时空提示学习长文视频文本理解

通过引入一种名为语言导向的时空提示学习（LSTP）的新方法，利用时间信息高效提取相关视频内容，并巧妙捕捉视觉和文本元素之间的复杂空间关系，从而显著提高计算效率、时间理解和时空对齐，通过两个挑战性任务的实证评估，证明了我们提出的 LSTP 范型在视频问答和视频中的时间问题定位方面具有卓越的性能、速度和多功能性。

Feb, 2024

网络范围航班延误预测的时空传播学习

本文提出了一种新的空时可分离图卷积网络 ——STPN，用于建立多个机场之间航班延误传播的综合模型，并且在美国和中国的航班延误数据上验证了该模型的有效性及优越性。

Jul, 2022

动态场景图生成的时空变换器

本文提出了一种基于空间 - 时间变换器 (STTran) 的神经网络，用于生成给定视频的动态场景图。STTran 包括一个空间编码器和一个时间解码器，能够有效地捕捉对象之间的视觉关系和帧之间的时间依赖。与已有方法相比，我们的方法在 Action Genome 数据集上表现出了更好的性能。

Jul, 2021

可控时空视频超分辨率的时间调制网络

本文提出了一种使用 “时间调制网络” 的方法，结合弯曲卷积和局部时间特征比较模块来处理视频的短期和长期动作线索，以提高低分辨率和低帧率视频的空间和时间分辨率，实验结果表明，该方法的性能优于现有的 STVSR 方法。

Apr, 2021