CVPRNov, 2019

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

TL;DR本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型,采用自我注意力机制进行不同模态的融合,并通过动态指针网络进行迭代式答案解码,相比于现有方法大幅度提高了 TextVQA 任务的性能。