CVPRAug, 2013

在视频中的句子引导下的活动识别

TL;DR该研究通过引入由语法指导的多模事件识别框架,进一步探讨了事件的构成结构与语言的构成结构如何相互影响,以及这种影响如何影响视觉行为识别,包括指导注意力、产生句子描述和查询视频等三个方面。