BriefGPT.xyz
Jun, 2020
面向TextVQA的结构化多模态关注力
Structured Multimodal Attentions for TextVQA
HTML
PDF
Chenyu Gao, Qi Zhu, Peng Wang, Hui Li, Yuliang Liu...
TL;DR
本文提出了一种端到端的结构化多模态关注神经网络,通过使用图形表示和多模态图形注意网络设计来处理TextVQA中的可视文本问答问题,并通过全局-本地注意回答模块生成答案,其中使用了OCR和通用词汇识别技术。实验证明该模型在TextVQA数据集和ST-VQA数据集等两个任务中超过了SoTA模型。
Abstract
Text based Visual Question Answering (
textvqa
) is a recently raised challenge that requires a machine to read text in images and answer natural language questions by jointly
reasoning
over the question, Optical C
→