CVPRMar, 2024

丰富监督提升视觉 - 语言预训练

TL;DR提出了一种新的预训练范式 —— 基于网络截图的强监督预训练(S4),利用大规模网络截图渲染的数据进行视觉语言模型的预训练。通过使用网络截图,可以获取在图像 - 文本对中不存在的丰富的视觉和文本线索。在 S4 中,利用 HTML 元素的树状层次结构和空间定位,精心设计了 10 个具有大规模注释数据的预训练任务。这些任务类似于不同领域的下游任务,而且注释成本较低。实验证明,与当前的截图预训练目标相比,我们的创新预训练方法显著提高了图像 - 文本模型在九个多样化和热门的下游任务上的性能 —— 在表格检测上提高了 76.1%,在小部件字幕上提高了至少 1%。