Jul, 2020
面向 TextVQA 的空间感知多模态 Transformer
Spatially Aware Multimodal Transformers for TextVQA
Yash Kant, Dhruv Batra, Peter Anderson, Alex Schwing, Devi Parikh...
TL;DR本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型,可以有效地推理图像中的文本内容,改进了 TextVQA 和 ST-VQA 两个关键指标,同时为视觉绑定的研究方向提供了新的思路。