Dec, 2015

基于帧和视频级特征以及视觉内容分类的循环网络视频字幕生成

TL;DR本文介绍了使用循环神经网络(RNN)生成短视频文本描述的系统,利用静态图像特征和视频专属特征的RNN,我们研究了视觉内容分类器作为额外信息源的实用性,并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用,可以比单独利用它们表现更好。