关系自注意力：视频理解中注意力缺少的部分

Nov, 2021

关系自注意力：视频理解中注意力缺少的部分

Relational Self-Attention: What's Missing in Attention for Video Understanding

Manjin Kim, Heeseung Kwon, Chunyu Wang, Suha Kwak, Minsu Cho

TL;DR本文提出了一种基于动态生成关系卷积核和聚合关系背景的关系特征变换 —— 关系自注意力 (RSA)，用于视频理解。通过实验和消融研究，证明 RSA 网络在视频动作识别等领域明显优于传统卷积和自注意力网络。

Abstract

convolution has been arguably the most important feature transform for modern neural networks, leading to the advance of deep learning. Recent emergence of transformer networks, which replace →

convolution transformer networks self-attention relational feature transform video understanding

发现论文，激发创造

注意力增强卷积网络

本文针对使用卷积操作在视觉任务中只关注局部局部信息、缺乏全局信息的不足，提出运用自注意力机制对视觉任务进行处理的方法；通过在图像分类和目标检测任务中实现卷积和自注意力的融合，可有效提高模型精度。

Apr, 2019

仿射自卷积

使用数据相关卷积和注意力机制，提出了一种特殊的自注意力网络模型，称之为 Affine Self Convolution，并在 CIFAR10 和 CIFAR100 数据集上进行了评估，结果显示该模型在减少参数数量的同时，在测试时获得了与基线模型相当或更高的准确率。

Nov, 2019

空时注意力是否足以理解视频？

该论文提出了一种基于自注意力机制的视频分类方法，名为 TimeSformer，适用于序列级别的视频帧，采用分离式自注意力机制，不仅训练速度比 3D 卷积神经网络更快，而且在多个动作识别数据集上实现了最佳效果，且支持处理长达一分钟的视频.

Feb, 2021

轻量级和动态卷积：减少注意力的付出

本文研究了使用自我关注（self-attention）和动态卷积（dynamic convolutions）两种机制建立语言和图像生成模型的效率以及准确性问题，并证明了动态卷积在大规模机器翻译、语言模型和提取式摘要等任务中的表现优于强的自我关注模型，得到了 WMT'14 英德测试集中 29.7 BLEU 的最高分。

Jan, 2019

卷积与自注意力：重新解释预训练语言模型中的相对位置

该研究探讨了卷积和自注意力在自然语言任务中的关系，提出了一种将卷积融合到自注意力中的方法，并使用 BERT 在多个下游任务上验证了卷积相对于绝对位置嵌入的性能优势。

Jun, 2021

探索自注意力在图像识别中的应用

本文研究探索了自注意力在图像识别模型中的应用，比较了两种形式的自注意力（分别为成对自注意力和区域自注意力）与卷积神经网络在图像识别上的表现，并发现自注意力网络对于学习稳健的表征具有明显的优势。

Apr, 2020

学习视觉 Transformer 的相关结构

我们引入了一种新的注意力机制，称为结构自注意力（StructSA），它利用注意力的键 - 查询交互中自然产生的丰富相关模式。使用结构自注意力作为主要构建模块，我们开发了结构视觉转换器（StructViT），并在图像和视频分类任务上评估其有效性，在 ImageNet-1K，Kinetics-400，Something-Something V1＆V2，Diving-48 和 FineGym 数据集上取得了最先进的结果。

Apr, 2024

SSAN: 可分离自注意力网络用于视频表示学习

该论文提出了一种分离的自注意力模块 (SSA)，通过分别建模空间和时间相关性，有效地将空间上下文信息用于时间建模，将该模块添加到 2D CNN 中形成 SSAN，用于视频表示学习，在 Something-Something 和 Kinetics-400 数据集上超过了现有最先进方法，在 MSR-VTT 和 Youcook2 数据集上得到了显著的性能提升。

May, 2021

Transformed CNNs: 用自注意力机制重塑预训练卷积层

本文研究在 Vision Transformers 与卷积神经网络之间构建混合模型时的计算瓶颈问题，探索采用卷积层进行初始化以达到更快的训练速度，得到的 Transformed CNN (T-CNN) 相比 CNN 在 ImageNet-1k 上有 2.2% top-1 和 ImageNet-C 上有 11% top-1 的性能提升，研究发现初始化 T-CNN 可以从部分训练的 CNN 开始进行，可以更快地达到高性能。

Jun, 2021

自注意力与卷积层之间的关系

本研究表明防止卷积操作而采用自注意层可以获得与卷积层相同的表现，这提供了一种证明多头自注意层与卷积层至少具有相同表征能力的方法。

Nov, 2019