ICCVNov, 2019

视频级标签时间定位的多注意力网络

TL;DR本文提出一种多注意力机制的模型来解决视频理解中的时间定位问题,模型结合了多个注意力网络、深度帧模型、循环神经网络和卷积神经网络,并基于多实例多标签学习和 attention 权重来加强对视频中重要帧的关注,从而在 YouTube-8M Video Understanding Challenge 中取得了较好的成绩。