SVFormer：一种直接训练的脉冲转换器用于高效的视频动作识别

IJCAIJun, 2024

SVFormer：一种直接训练的脉冲转换器用于高效的视频动作识别

SVFormer: A Direct Training Spiking Transformer for Efficient Video Action Recognition

Liutao Yu, Liwei Huang, Chenlin Zhou, Han Zhang, Zhengyu Ma...

TL;DR我们研究了利用脉冲神经网络的直接训练的 SVFormer（Spiking Video transFormer）进行视频动作识别，通过整合局部特征提取、全局自注意力和 SNN 的内在动态、稀疏性和脉冲驱动特性，以更高效和有效的方式提取时空特征，并在两个 RGB 数据集（UCF101、NTU-RGBD60）和一个神经形态学数据集（DVS128-Gesture）上进行了评估，表现出与主流模型相媲美的性能同时功耗更低，UCF101 的准确率达到 84.03%，能耗仅为 21 mJ / 视频，这是在直接训练的深度 SNN 中的最新技术水平，显示出相对于以前的模型的显著优势。

Abstract

video action recognition (VAR) plays crucial roles in various domains such as surveillance, healthcare, and industrial automation, making it highly significant for the society. Consequently, it has long been a research spot in the computer vision field. As artificial neural networks (A

video action recognition spiking neural networks svformer temporal dynamics energy efficiency

发现论文，激发创造

Spikeformer：一种用于训练高性能低延迟脉冲神经网络的新型结构

提出了一种基于 Transformer 的 Spikeformer 方法，它在静态数据集和神经形态数据集上均优于其人工神经网络对应物。为了更好地将注意力机制整合到 Transformer 中，并融合内在于 SNN 的时空信息，采用时空注意力机制。

Nov, 2022

UniFormerV2：将图像 ViTs 赋能视频的时空学习

本文提出了一种用于构建视频网络家族的通用范例，通过将预训练的 Vision Transformers 与高效的 UniFormer 设计相结合，实现了理想的准确性与计算平衡，并在 8 个常见的视频基准测试中取得了最先进的识别性能。

Nov, 2022

ActNetFormer：半监督视频动作识别的 Transformer-ResNet 混合方法

提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法，其中结合 3D 卷积神经网络（3D CNN）和视频变换器（VIT）的独特方法能够有效捕捉行为的局部和全局上下文信息，从而在标记数据的一小部分情况下实现了卓越的性能。

Apr, 2024

Spikingformer：基于脉冲的剩余学习用于基于 Transformer 的脉冲神经网络

本研究提出了一种硬件友好的、基于残差设计的、全新的、纯变压器型脉冲神经网络 ——Spikingformer，它能够避免非脉冲计算并使能耗降低 60.34％。Spikingformer 在图像分类任务的表现优于之前的纯 SNN，并且是首次开发出全脉冲驱动的变压器型 SNN。

Apr, 2023

SSTFormer：连接脉冲神经网络和具备记忆支持的转换器用于基于帧事件的识别

通过融合 RGB 帧和事件流的模式识别框架，在事件相机模式识别领域取得了有效的结果，同时还提出了一个大规模的 PokerEvent 数据集，促进了模式识别的发展。

Aug, 2023

基于摄像头的并行脉冲驱动变压器远程光电容识别

本文提出了一种基于脉冲神经网络的混合神经网络模型 Spiking-PhyFormer，该模型在保持性能的同时，相较于 PhysFormer 和其他基于 ANN 的模型降低了 12.4% 的功耗，并将变压器块的功耗降低了 12.2 倍。

Feb, 2024

UniFormer：用于高效时空表示学习的统一 Transformer

本研究提出了一种新型的视频分类模型 ——UniFormer，它集成了 3D 卷积和自注意力机制的优点，通过浅层和深层分别学习本地和全局特征，从而在计算量和准确性之间取得了理想的平衡，经实验证明该模型的泛化和针对性能均优于其他方法。

Jan, 2022

Spikformer V2：使用 SNN 特征进行 ImageNet 高精度计算

通过结合自注意能力和生物特性，本论文提出了一种新颖的脉冲自注意 (SSA) 和脉冲变换器 (Spikformer)，其中 SSA 机制消除了 softmax 的需求，利用基于脉冲的查询、键和值实现了稀疏视觉特征的捕获，而 SCS 则用于增强 Spikformer 的架构。通过自监督学习 (SLS) 实现对更大、更深的 Spikformer V2 的训练，实验证明此方法在 ImageNet 上的分类准确性超过了其他方法，且 SNN 首次在 ImageNet 上达到超过 80% 的准确性。

Jan, 2024

使用动态时间步长的脉冲神经网络用于视觉变换器

基于动态分配时间步数的训练框架，提出了一种对视觉变换器进行训练的方法，以提高能量效率并在图像识别任务中获得 95.97% 的测试准确率。

Nov, 2023

VSFormer：视觉空间融合 Transformer 用于对应关系修剪

在本文中，我们提出了一种名为 VSFormer 的视觉空间融合转换器，通过交叉关注获取场景的高度抽象视觉线索，进而通过联合视觉空间融合模块将这些视觉线索嵌入到相应的对应关系中，实现对内点的识别和相机姿态恢复，同时通过结合基于 KNN 的图和转换器的新颖模块有效捕捉局部和全局背景的一致性，大量实验证明所提出的 VSFormer 在室内外基准上优于现有方法。

Dec, 2023