CVPRApr, 2022

提高场景文本检测器的视觉语言预训练

TL;DR本文研究了视觉 - 语言联合表征学习在场景文本检测中的应用,提出了利用视觉 - 语言预训练学习得到的上下文化联合表征来提高场景文本检测器的性能,通过三个 pretext tasks 来进行预训练,在标准基准测试中证明了该方法能够显著提高各种代表性的文本检测器的性能。