Aug, 2023

音视频扫视网络用于高效视频识别

TL;DR通过利用音频和视觉模态在视频中高效处理时空重要部分,我们提出了一个名为AVGN的音视频感知网络,通过划分视频片段并使用轻量级单模态编码器和音频增强的空间块注意模块,实现了更高效的视频识别。同时结合多种训练技术和多模态特征融合,我们的AVGN在多个视频识别基准上取得了新的最高性能并实现了更快的处理速度。