Dec, 2020

TAP: 面向 Text-VQA 和 Text-Caption 的文本感知预训练

TL;DR本文提出了一种名为 TAP 的方法,通过使用光学字符识别引擎生成的图像文字来预训练模型,从而帮助模型在三种模态 —— 文本单词、视觉对象和场景文本中学习更好的对齐表示,在多个任务上均表现出卓越的性能。