Jun, 2020

面向TextVQA的结构化多模态关注力

TL;DR本文提出了一种端到端的结构化多模态关注神经网络,通过使用图形表示和多模态图形注意网络设计来处理TextVQA中的可视文本问答问题,并通过全局-本地注意回答模块生成答案,其中使用了OCR和通用词汇识别技术。实验证明该模型在TextVQA数据集和ST-VQA数据集等两个任务中超过了SoTA模型。