ECCVAug, 2018

视频问答与检索的联合序列融合模型

TL;DR本文提出了一种名为 JSFusion(联合序列融合)的方法,可以测量多模式序列数据(例如视频剪辑和语言句子)之间的语义相似性,并通过发现两个序列模态之间的隐藏分层匹配来计算它们的相似度得分,该模型适用于多模式检索和视频 QA 等任务,并在多个数据集上超过了现有的许多最先进的方法。