May, 2019
利用多任务学习获取多模态视频问答的额外监督
Gaining Extra Supervision via Multi-task learning for Multi-Modal Video
Question Answering
TL;DR该研究提出通过多任务学习获得额外监督的方法,解决多模态视频问答建立大规模数据集昂贵且现有基准数据集较小的挑战。该方法由多模态视频问答网络、时间检索网络和模态对齐网络组成,通过层次共享中间层同时解决相关的辅助任务提供额外的协同监督,并提出多任务比率调度的方法进行训练。实验结果表明,该方法在公开数据集TVQA上实现了最先进的效果。