Nov, 2017

基于物体和交互的视频字幕

TL;DR提出了利用视频中物体的交互来生成视频字幕的方法,并构建了 SINet-Caption 模型,可以在更精细的视频理解方面获得最先进的结果,同时在 ActivityNet Captions 数据集上进行了实验验证。