BriefGPT.xyz
Aug, 2023
音视频扫视网络用于高效视频识别
Audio-Visual Glance Network for Efficient Video Recognition
HTML
PDF
Muhammad Adi Nugroho, Sangmin Woo, Sumin Lee, Changick Kim
TL;DR
通过利用音频和视觉模态在视频中高效处理时空重要部分,我们提出了一个名为AVGN的音视频感知网络,通过划分视频片段并使用轻量级单模态编码器和音频增强的空间块注意模块,实现了更高效的视频识别。同时结合多种训练技术和多模态特征融合,我们的AVGN在多个视频识别基准上取得了新的最高性能并实现了更快的处理速度。
Abstract
deep learning
has made significant strides in
video understanding
tasks, but the computation required to classify lengthy and massive videos using clip-level video classifiers remains impractical and prohibitivel
→