基于时空注意力的实时视频识别语义压缩

May, 2023

基于时空注意力的实时视频识别语义压缩

Spatiotemporal Attention-based Semantic Compression for Real-time Video Recognition

Nan Li, Mehdi Bennis, Alexandros Iosifidis, Qi Zhang

TL;DR本文研究边缘计算中视频动作识别的计算卸载。为了实现有效的语义信息提取，本文提出了一种新的空时注意力自编码器（STAE）结构，包括帧注意力模块和空间注意力模块。实验证明，在时间约束下，与 DeepISC 的基准模型相比，基于 STAE 的 ViT 模型具有更快的推理速度和更高的准确性。

Abstract

This paper studies the computational offloading of video action recognition in edge computing. To achieve effective semantic information extraction and compression, following semantic communication we propose a n

computational offloading video action recognition spatiotemporal attention-based autoencoder entropy encoding vision transformer

发现论文，激发创造

一种基于语义和运动感知的时空转换网络实现动作检测

本文介绍了一种新颖的时空变换网络，其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联，使用运动感知网络编码视频帧中的动作位置，并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系，该方法在四个时空动作数据集上优于最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。

May, 2024

可解释的时空注意力视频动作识别

通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性，并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签，模型不仅提高了准确性，还能时空自动定位区分性区域。

Oct, 2018

快速视频语义分割的局部内存注意力

本文提出了一种新颖的神经网络模块，可以将现有的单帧语义分割模型转化为视频语义分割流水线，并将过去帧中的语义信息聚合到内存模块中，并通过关注机制来对其进行访问。通过将这些提示与当前帧的编码进行融合，可以改善 Cityscapes 数据集上的分割性能，并只需增加 1.5ms 的推理时间。

Jan, 2021

STA: 大规模视频人员再识别的时空注意力

本文中，我们提出了一种新的空间 - 时间注意力（STA）方法，用于解决视频中的大规模人员重新识别任务，该方法通过在时空维度上充分利用那些具有区分性的目标人物部分来生成鲁棒的剪辑级特征表示，使用该方法可以很好地解决基于视频的人员重新识别的挑战性问题，如姿势变化和部分遮挡。

Nov, 2018

一种高效的时空金字塔变换器用于动作检测

本研究提出一种名为 STPT 的层次化时空金字塔 Transformer 模型，通过采用局部窗口注意力和全局注意力模块，实现了对长视频片段中动作的高效检测和定位，与目前流行的基于 Transformer 的模型相比，提高了精度并减少了冗余计算。

Jul, 2022

SSAN: 可分离自注意力网络用于视频表示学习

该论文提出了一种分离的自注意力模块 (SSA)，通过分别建模空间和时间相关性，有效地将空间上下文信息用于时间建模，将该模块添加到 2D CNN 中形成 SSAN，用于视频表示学习，在 Something-Something 和 Kinetics-400 数据集上超过了现有最先进方法，在 MSR-VTT 和 Youcook2 数据集上得到了显著的性能提升。

May, 2021

通过语义感知的时间累积修剪时空令牌

为了优化速度和准确度的平衡，我们提出了基于语义感知的时间积累评分（STA）来整体修剪时空令牌。利用 STA 评分，我们能够逐步修剪令牌而不引入额外的参数或需要进一步的再训练。在 Kinetics-400 和 Something-Something V2 上的实证结果表明，使用 STA 模块在 ViT 和 VideoSwin 骨干网络上能够实现超过 30％的计算减少，而准确度下降仅为可忽略的 0.2％。

Aug, 2023

基于骨骼的动作识别的时空转换器网络

本文提出了一种新的空时变换器网络（ST-TR），该网络利用 Transformer 自我注意机制对 3D 骨架中的关节之间的依赖关系进行建模。空间自我注意模块（SSA）用于理解不同身体部位之间的帧内相互作用，而时间自我注意模块（TSA）用于建模帧间的相关性。两个模块在两个流网络中被结合使用，对 NTU-RGB + D 60 和 NTU-RGB + D 120 上的相同输入数据优于同类基准模型。

Dec, 2020

快速注意力实时语义分割

该论文提出一种新的 CNN 模型结构和快速空间注意力机制，能够在实时高分辨率图像和视频上进行语义分割，同时实现更好的准确性和速度。在 Cityscapes 数据集中，该模型在单个 Titan X GPU 上实现了 74.4％ mIoU 的 72 FPS 和 75.5％ mIoU 的 58 FPS，比现有方法快约 50％，并保持相同的准确性。

Jul, 2020

时空对齐网络用于动作识别

通过引入视点不变特征表示，研究提高现有动作识别架构；提出了一种轻量级通用的空间 - 时间对齐网络（STAN）用于学习动作识别的几何不变表示；实验证明 STAN 模型在广泛使用的数据集上能够在从头开始训练的模式下持续改进动作识别任务的最先进模型。

Aug, 2023