SSAN: 可分离自注意力网络用于视频表示学习

CVPRMay, 2021

SSAN: 可分离自注意力网络用于视频表示学习

SSAN: Separable Self-Attention Network for Video Representation Learning

Xudong Guo, Xun Guo, Yan Lu

TL;DR该论文提出了一种分离的自注意力模块 (SSA)，通过分别建模空间和时间相关性，有效地将空间上下文信息用于时间建模，将该模块添加到 2D CNN 中形成 SSAN，用于视频表示学习，在 Something-Something 和 Kinetics-400 数据集上超过了现有最先进方法，在 MSR-VTT 和 Youcook2 数据集上得到了显著的性能提升。

Abstract

self-attention has been successfully applied to video representation learning due to the effectiveness of modeling long range dependencies. Existing approaches build the dependencies merely by computing the pairw

self-attention video representation learning spatial and temporal correlations separable self-attention module video action recognition

发现论文，激发创造

基于自注意力网络的基于骨骼的人体动作识别

提出三个 Self-Attention 网络的变体来提取高层语义，其中将 Temporal Segment Network 应用于变体以获得更好的性能，通过广泛的实验评估，探索了不同配置和表现更好的方法。

Dec, 2019

CSA-Net：通道级空间自相关注意力网络

该研究介绍了一种新颖的基于地理空间分析的通道相关的注意力机制，其能够在卷积神经网络中利用特征图之间的空间关系来产生有效的通道描述符，并验证了其在图像分类、目标检测和实例分割等多个任务和数据集上相对于其他先进的基于注意力的卷积神经网络的竞争性性能和优越性。

May, 2024

卷积自注意力网络

本篇论文介绍了一种新颖的卷积自注意力网络，通过引入多头注意力机制，加强了邻近元素之间的依赖关系，并能够对各个注意力头提取的特征之间的交互进行建模，用于机器翻译任务中能有效提高自注意力网络的本地性，实验证明该方法优于常用的 Transformer 模型和其他已有的模型，并且没有更多的额外参数。

Apr, 2019

用于时空视觉注意的循环混合密度网络

本研究提出了一种基于高斯混合模型的时空注意力模型，并使用人类注视数据进行训练，相比先前的方法，该模型在影片显著性预测方面具有最先进的表现，并在动作分类准确性方面取得了改进。

Mar, 2016

SCA-CNN：用于图像字幕的卷积网络中的空间和通道注意力

本文介绍了一种新的卷积神经网络 SCA-CNN，其中引入了空间和通道注意力，用于图像描述任务，结果表明 SCA-CNN 明显优于现有的基于视觉关注的图像描述方法。

Nov, 2016

学习视觉 Transformer 的相关结构

我们引入了一种新的注意力机制，称为结构自注意力（StructSA），它利用注意力的键 - 查询交互中自然产生的丰富相关模式。使用结构自注意力作为主要构建模块，我们开发了结构视觉转换器（StructViT），并在图像和视频分类任务上评估其有效性，在 ImageNet-1K，Kinetics-400，Something-Something V1＆V2，Diving-48 和 FineGym 数据集上取得了最先进的结果。

Apr, 2024

关系自注意力：视频理解中注意力缺少的部分

本文提出了一种基于动态生成关系卷积核和聚合关系背景的关系特征变换 —— 关系自注意力 (RSA)，用于视频理解。通过实验和消融研究，证明 RSA 网络在视频动作识别等领域明显优于传统卷积和自注意力网络。

Nov, 2021

基于规范化和几何意识的自注意力网络在图像字幕生成中的应用

本文提出改进的归一化自注意力网络，并针对 Transformer 处理对象几何结构的局限性，引入了一种几何感知自注意力机制，将两个模型结合应用于图像字幕任务并在 MS-COCO 数据集上取得了优异实验结果，同时在视频字幕，机器翻译和视觉问答等任务上也展现了较强的通用性。

Mar, 2020

空间交叉注意力提高自监督视觉表示学习

该论文提出一个可添加到 SwAV 等现有方法中的附加模块，可以更好地学习图像语义中的空间交叉相关性和内部类信息，并提高物体检测等下游任务的性能。

Jun, 2022

基于时空注意力的实时视频识别语义压缩

本文研究边缘计算中视频动作识别的计算卸载。为了实现有效的语义信息提取，本文提出了一种新的空时注意力自编码器（STAE）结构，包括帧注意力模块和空间注意力模块。实验证明，在时间约束下，与 DeepISC 的基准模型相比，基于 STAE 的 ViT 模型具有更快的推理速度和更高的准确性。

May, 2023