ACLJun, 2021

出门看前方:基于运动和外观相互协作的视频问答网络

TL;DR本文提出了基于运动和外貌信息的交叉模态特征嵌入的 MASN 网络用于视频问答任务,通过问题导向的融合实现了最新的表现,并在 TGIF-QA 和 MSVD-QA 上实现了新的最佳性能。