Sep, 2015

融合多路深度网络进行视频分类

TL;DR本研究提出了一种多流深度网络架构,用于解决视频分类问题。通过训练三种卷积神经网络来建模视频中的空间、短期动态和音频线索,并采用长短期记忆网络来探索长期时间动态,最终通过自适应融合方法生成预测结果,将多模态信息充分利用。实验证明,该方法的性能明显优于现有的方法。