Dec, 2020

简单并不容易:文本 VQA 和 TextCaps 的简单强基准

TL;DR本篇论文提出了一种简单的关注机制,通过将 OCR 令牌特征分别发送到可视化和语言关注分支,并将它们发送到流行的 Transformer 解码器以生成答案或标题,从而在 TextVQA 和 ST-VQA 等多个基准测试上取得最新的最佳表现,并且在文本图像字幕方面超过了 TextCaps 挑战 2020 的获胜者