关系自注意力:视频理解中注意力缺少的部分
本文针对使用卷积操作在视觉任务中只关注局部局部信息、缺乏全局信息的不足,提出运用自注意力机制对视觉任务进行处理的方法;通过在图像分类和目标检测任务中实现卷积和自注意力的融合,可有效提高模型精度。
Apr, 2019
使用数据相关卷积和注意力机制,提出了一种特殊的自注意力网络模型,称之为 Affine Self Convolution,并在 CIFAR10 和 CIFAR100 数据集上进行了评估,结果显示该模型在减少参数数量的同时,在测试时获得了与基线模型相当或更高的准确率。
Nov, 2019
该论文提出了一种基于自注意力机制的视频分类方法,名为 TimeSformer,适用于序列级别的视频帧,采用分离式自注意力机制,不仅训练速度比 3D 卷积神经网络更快,而且在多个动作识别数据集上实现了最佳效果,且支持处理长达一分钟的视频.
Feb, 2021
本文研究了使用自我关注(self-attention)和动态卷积(dynamic convolutions)两种机制建立语言和图像生成模型的效率以及准确性问题,并证明了动态卷积在大规模机器翻译、语言模型和提取式摘要等任务中的表现优于强的自我关注模型,得到了 WMT'14 英德测试集中 29.7 BLEU 的最高分。
Jan, 2019
该研究探讨了卷积和自注意力在自然语言任务中的关系,提出了一种将卷积融合到自注意力中的方法,并使用 BERT 在多个下游任务上验证了卷积相对于绝对位置嵌入的性能优势。
Jun, 2021
本文研究探索了自注意力在图像识别模型中的应用,比较了两种形式的自注意力(分别为成对自注意力和区域自注意力)与卷积神经网络在图像识别上的表现,并发现自注意力网络对于学习稳健的表征具有明显的优势。
Apr, 2020
我们引入了一种新的注意力机制,称为结构自注意力(StructSA),它利用注意力的键 - 查询交互中自然产生的丰富相关模式。使用结构自注意力作为主要构建模块,我们开发了结构视觉转换器(StructViT),并在图像和视频分类任务上评估其有效性,在 ImageNet-1K,Kinetics-400,Something-Something V1&V2,Diving-48 和 FineGym 数据集上取得了最先进的结果。
Apr, 2024
该论文提出了一种分离的自注意力模块 (SSA),通过分别建模空间和时间相关性,有效地将空间上下文信息用于时间建模,将该模块添加到 2D CNN 中形成 SSAN,用于视频表示学习,在 Something-Something 和 Kinetics-400 数据集上超过了现有最先进方法,在 MSR-VTT 和 Youcook2 数据集上得到了显著的性能提升。
May, 2021
本文研究在 Vision Transformers 与卷积神经网络之间构建混合模型时的计算瓶颈问题,探索采用卷积层进行初始化以达到更快的训练速度,得到的 Transformed CNN (T-CNN) 相比 CNN 在 ImageNet-1k 上有 2.2% top-1 和 ImageNet-C 上有 11% top-1 的性能提升,研究发现初始化 T-CNN 可以从部分训练的 CNN 开始进行,可以更快地达到高性能。
Jun, 2021