Jun, 2020
面向 TextVQA 的结构化多模态关注力
Structured Multimodal Attentions for TextVQA
Chenyu Gao, Qi Zhu, Peng Wang, Hui Li, Yuliang Liu...
TL;DR本文提出了一种端到端的结构化多模态关注神经网络,通过使用图形表示和多模态图形注意网络设计来处理 TextVQA 中的可视文本问答问题,并通过全局 - 本地注意回答模块生成答案,其中使用了 OCR 和通用词汇识别技术。实验证明该模型在 TextVQA 数据集和 ST-VQA 数据集等两个任务中超过了 SoTA 模型。