MMAug, 2023

分离与定位:重新思考文本的文本视觉问答

TL;DRTextVQA 问题解答中,我们提出了一种名为 Separate and Locate (SaL) 的新方法,该方法通过探索文本的上下文线索和设计空间位置嵌入来构建 OCR 文本之间的空间关系,从而在 TextVQA 和 ST-VQA 数据集上获得了较好的准确性改进,并且无需任何预训练任务。