MMNov, 2021
MM-Pyramid: 多模塔形注意力网络用于音视频事件定位和视频解析
MM-Pyramid: Multimodal Pyramid Attentional Network for Audio-Visual Event Localization and Video Parsing
Jiashuo Yu, Ying Cheng, Rui-Wei Zhao, Rui Feng, Yuejie Zhang
TL;DR提出了一种名为 MM-Pyramid 的多模式金字塔式注意力网络,该网络使用注意力特征金字塔模块和语义融合模块,以实现视频中事件的识别和定位。