丰富监督提升视觉 - 语言预训练 | BriefGPT

CVPRMar, 2024

丰富监督提升视觉 - 语言预训练

Enhancing Vision-Language Pre-training with Rich Supervisions

Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel...

TL;DR提出了一种新的预训练范式 —— 基于网络截图的强监督预训练（S4），利用大规模网络截图渲染的数据进行视觉语言模型的预训练。通过使用网络截图，可以获取在图像 - 文本对中不存在的丰富的视觉和文本线索。在 S4 中，利用 HTML 元素的树状层次结构和空间定位，精心设计了 10 个具有大规模注释数据的预训练任务。这些任务类似于不同领域的下游任务，而且注释成本较低。实验证明，与当前的截图预训练目标相比，我们的创新预训练方法显著提高了图像 - 文本模型在九个多样化和热门的下游任务上的性能 —— 在表格检测上提高了 76.1%，在小部件字幕上提高了至少 1%。

Abstract

We propose strongly supervised pre-training with screenshots (S4) - a novel pre-training paradigm for vision-language models using data fr

strongly supervised pre-training screenshots vision-language models web screenshots pre-training tasks

发现论文，激发创造

从屏幕截图提升语言理解能力

我们提出了一种新颖的 Patch-and-Text Prediction (PTP) 目标函数，通过掩盖和恢复截图中的图像块和文本，改善了截图语言模型的文本能力，并通过在 GLUE 任务上获得与 BERT 相当的性能（在 2% 之内）以及高达 8% 的改进，证明了所提出模型的有效性。

Feb, 2024

从自然语言监督中学习可转移的视觉模型

通过预测图像与文本配对来预训练计算机视觉系统，使其可以从自然语言描述中直接学习视觉概念，从而实现零样本迁移，并在多个计算机视觉任务上展现出竞争力。

Feb, 2021

Pix2Struct: 屏幕截图解析用于视觉语言理解的预训练

Pix2Struct 是一种预先训练的图像到文本模型，能够解析丰富的文本，可用于多个领域任务，实现了最先进的结果。

Oct, 2022

启发式视觉预训练的自监督和有监督多任务学习

提出了一个结合自监督学习和监督学习的多任务预训练框架，用于识别多种视觉任务，结果表明该模型能够达到或超过多个视觉任务的最先进结果的能力。

Oct, 2023

利用 WebSight 数据集解锁网页截图转换为 HTML 代码

使用视觉 - 语言模型（VLMs）在 Web 开发中提供截屏或草图界面，能够自动生成相应的 HTML 代码，这项研究介绍了 WebSight 合成数据集和基于该数据集进行优化的 VLM，在将网页截屏转换为功能性 HTML 代码方面表现出良好的效果，并开源了 WebSight 以加速该领域的研究。

Mar, 2024

多模态预训练中视觉关系的弱监督学习

本文研究了使用小规模可视关系数据的预训练方法，包括使用场景图将可视关系三元组转换为结构化说明，以及使用掩模关系预测进一步鼓励从可视上下文中关联实体，并且证明了这些方法从弱监督关系数据中学习多模态表示的有效性。

May, 2023

无监督的视觉与语言预训练：无需平行图像和文本

通过无监督预训练实现视觉和语言模型的学习，使用 “mask-and-predict” 方法预训练文本和图像数据，并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁，在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能，挑战了对于 V&L 预训练来说，对齐数据是必要的广泛看法，并显著减少了 V&L 模型的监督所需量。

Oct, 2020

SimVLM：简单的弱监督视觉语言模型预训练

本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果，还展示了 SimVLM 获得了强大的泛化和转移能力，实现了零 - shot 行为。

Aug, 2021

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

ScreenAI：面向用户界面和信息图的视觉语言模型

屏幕用户界面、信息图表、ScreenAI、视觉 - 语言模型和基于 UI 和信息图表的任务是该研究论文的关键词和概要。

Feb, 2024