MMOct, 2020

基于帧聚合和多模态融合的视频人员识别框架

TL;DR通过 Frame Aggregation and Multi-Modal Fusion framework 框架,将注意力机制引入 NetVLAD 模块进行视频内的人物识别,同时引入了 Multi-Layer Multi-Modal Attention 模块进行多模态相关性建模,实验结果表明该方法优于其他现有方法。