ECCVOct, 2018

可学习的池化方法用于视频分类

TL;DR本研究旨在通过引入基于注意力机制和函数逼近的方法来改进局部视频描述符集成的现有方法,并提出了创建新体系结构的见解。在使用帧级视频和音频描述符的 'The 2nd YouTube-8M Video Understanding Challenge' 中展示了我们的解决方案。通过满足预算约束条件,我们获得了类似于现有技术的测试准确性,并探讨了改进现有技术的策略。模型实现可在此 https URL 中获得。