Dec, 2016

多面向注意力的视频字幕生成

TL;DR本文提出了一种新的视频字幕生成方法,利用多种视觉特征和语义属性的层次,采用 LSTM 网络进行句子生成,实现自动选取最突出的视觉特征或语义属性,有望提高字幕生成的精确度。实验结果表明,该框架胜过现有最先进的方法,并可进一步提升精度至近于人类水平。