IJCAIJun, 2024

SVFormer:一种直接训练的脉冲转换器用于高效的视频动作识别

TL;DR我们研究了利用脉冲神经网络的直接训练的 SVFormer(Spiking Video transFormer)进行视频动作识别,通过整合局部特征提取、全局自注意力和 SNN 的内在动态、稀疏性和脉冲驱动特性,以更高效和有效的方式提取时空特征,并在两个 RGB 数据集(UCF101、NTU-RGBD60)和一个神经形态学数据集(DVS128-Gesture)上进行了评估,表现出与主流模型相媲美的性能同时功耗更低,UCF101 的准确率达到 84.03%,能耗仅为 21 mJ / 视频,这是在直接训练的深度 SNN 中的最新技术水平,显示出相对于以前的模型的显著优势。