ECCVSep, 2018

大规模视频分类中多模态融合的良好实践

TL;DR通过多模数据融合与双线性池化结合,实现音视频表达融合,在视频分类等大规模多媒体处理上显著优于简单融合方法,并在 Youtube-8M v2 数据集上进行了验证。