MMNov, 2021

MM-Pyramid: 多模塔形注意力网络用于音视频事件定位和视频解析

TL;DR提出了一种名为 MM-Pyramid 的多模式金字塔式注意力网络,该网络使用注意力特征金字塔模块和语义融合模块,以实现视频中事件的识别和定位。