Jun, 2022

用于视频问答的结构化双流注意力网络

TL;DR本文提出了一种结构化的双流注意力网络(STA)来解决视频问答(VQA),该网络可以识别视频中的长时空结构和文本特征,并将视觉与文本融合以提供准确的答案,在大规模视频QA数据集TGIF-QA上实验表明,STA可将Action,Trans,TrameQA和Count任务的最佳效果提高13.0%,13.5%,11.0%和0.3%,在Action,Trans,TrameQA任务上也比最佳竞争对手提高4.1%,4.7%和5.1%。