Feb, 2023

级联自注意力和互注意力块的视觉问答

TL;DR本文提出了一种通过视觉和文本模态的密集交互来学习改进的多模态表示的模型,其 attention block 包含自我注意力和共注意力,旨在提高视觉问题回答任务的性能。该模型在 VQA2.0 和 TDIUC 数据集上经过基准测试,并通过消融分析实验证明了模型的关键组件和注意力模块级联的有效性。