ECCVOct, 2018

视频和文本的跨模态和分层建模

TL;DR本文探讨了多模态序列数据的建模技术,提出了一种通用模型,即基于层次结构的序列嵌入模型 (HSE),该模型将不同模态的序列数据嵌入层次语义空间中,取得了超越现有方法的结果,并在零样本动作识别和视频字幕自动生成等下游任务中取得了更好的效果。