Aug, 2021

本地化、分组和选择:通过场景文本建模提升文本 - VQA

TL;DR本文提出了一种名为 Localize, Group, and Select (LOGOS) 的模型,它利用场景文本聚类和光学字符识别(OCR)技术来更好地定位图像的关键信息、实现跨模态理解,并从不同来源的 OCR 文本中选择最佳答案,成功解决了多模态上下文理解中的 Text-VQA 问题,实验表明,该模型在两个 Text-VQA 基准测试上表现优于其他方法。