MMOct, 2020
基于帧聚合和多模态融合的视频人员识别框架
Frame Aggregation and Multi-Modal Fusion Framework for Video-Based Person Recognition
Fangtao Li, Wenzhe Wang, Zihe Liu, Haoran Wang, Chenghao Yan...
TL;DR通过 Frame Aggregation and Multi-Modal Fusion framework 框架,将注意力机制引入 NetVLAD 模块进行视频内的人物识别,同时引入了 Multi-Layer Multi-Modal Attention 模块进行多模态相关性建模,实验结果表明该方法优于其他现有方法。