Nov, 2020

改进的视觉问答注意力机制

TL;DR本文提出了一种改进的基于注意力机制的架构,其中包括一个对注意力结果和查询进行关系确定的AoA模块,并提出了多模态融合模块来组合视觉和文本信息,结果在VQA-v2基准数据集上达到了最先进的性能。