CVPRNov, 2020

利用音频和视频流改进足球动作识别

TL;DR本文提出了一个研究,探讨在足球视频中进行多模态(音频和视频)的动作定位和分类。我们使用了 SoccerNet 基准数据集,并评估了在不同的深度神经网络结构中整合音频流的几种方法,并观察到在动作分类任务和动作定位任务中平均平均精度 (mAP) 指标分别提高了 7.43%和 4.19%。