Sep, 2022

PreSTU:场景文本理解的预训练

TL;DR本文介绍了一种新的预训练方法 PreSTU,利用 OCR 技术将场景中的文本信息识别并与图像其余内容连接起来,经实验证明在视觉问答和图像字幕等任务中取得了良好的效果。