CVPRJun, 2017

使用视频、音频和文本进行真正的多模态 YouTube-8M 视频分类

TL;DR该研究通过引入文本数据将视频分类问题转化为多模态任务,并针对该任务提出了一种分类框架,结合视觉、音频和文本特征进行研究探究。实验结果表明,利用文本特征可提高分类准确率。