Jun, 2022

用于视频问答的结构化双流注意力网络

TL;DR本文提出了一种结构化的双流注意力网络(STA)来解决视频问答(VQA),该网络可以识别视频中的长时空结构和文本特征,并将视觉与文本融合以提供准确的答案,在大规模视频 QA 数据集 TGIF-QA 上实验表明,STA 可将 Action,Trans,TrameQA 和 Count 任务的最佳效果提高 13.0%,13.5%,11.0%和 0.3%,在 Action,Trans,TrameQA 任务上也比最佳竞争对手提高 4.1%,4.7%和 5.1%。