ACLMay, 2020

视频问答中基于密集字幕匹配和帧选择门控的时间定位

TL;DR本文提出了一种视频问答模型,它有效地集成了多模态输入源并从中找到临时相关信息以回答问题,该模型包括多种设计方法,包括基于稠密图像标题的对象及其详细显著区域和动作识别,双重关注,跨集成和引入了带有人类重要性注释来更好地监督模型的两个损失函数的门控,这个模型在多个数据集上的表现优于现有的技术。