Jun, 2020

面向 TextVQA 的结构化多模态关注力

TL;DR本文提出了一种端到端的结构化多模态关注神经网络,通过使用图形表示和多模态图形注意网络设计来处理 TextVQA 中的可视文本问答问题,并通过全局 - 本地注意回答模块生成答案,其中使用了 OCR 和通用词汇识别技术。实验证明该模型在 TextVQA 数据集和 ST-VQA 数据集等两个任务中超过了 SoTA 模型。