Language Matters: 一种弱监督的视觉 - 语言预训练方法用于场景文字检测和定位

ECCVMar, 2022

Language Matters: 一种弱监督的视觉 - 语言预训练方法用于场景文字检测和定位

Language Matters: A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting

Chuhui Xue, Wenqing Zhang, Yu Hao, Shijian Lu, Philip Torr...

TL;DR本文提出了一种弱监督的预训练方法 oCLIP，该方法通过联合学习视觉和文本信息来获取有效的场景文本表示，并能从弱注释文本中学习，可以有效地应对 OCR 任务。实验证明，该方法在多个公共数据集上都优于现有的预训练技术。

Abstract

Recently, vision-language pre-training (VLP) techniques have greatly benefited various vision-language tasks by jointly learning visual and textual representations, which intuitively helps in Optical Character Recognition (→

vision-language pre-training ocr oclip scene text representations weakly supervised pre-training

发现论文，激发创造

提高场景文本检测器的视觉语言预训练

本文研究了视觉 - 语言联合表征学习在场景文本检测中的应用，提出了利用视觉 - 语言预训练学习得到的上下文化联合表征来提高场景文本检测器的性能，通过三个 pretext tasks 来进行预训练，在标准基准测试中证明了该方法能够显著提高各种代表性的文本检测器的性能。

Apr, 2022

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

无监督的视觉与语言预训练：无需平行图像和文本

通过无监督预训练实现视觉和语言模型的学习，使用 “mask-and-predict” 方法预训练文本和图像数据，并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁，在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能，挑战了对于 V&L 预训练来说，对齐数据是必要的广泛看法，并显著减少了 V&L 模型的监督所需量。

Oct, 2020

基于相对表示的弱监督视觉语言预训练

本研究提出了使用相对表示（relative representations）来构建跨模态锚点，从而实现高质量的图像 - 文本对预训练的 WVLP 框架 RELIT，并通过四个下游任务的实验表现得出了新的最先进结果。

May, 2023

E2E-VLP: 结合视觉学习的端到端视觉 - 语言预训练

本文提出了一种用于视觉和语言理解与生成的端到端的视觉 - 语言预训练模型 E2E-VLP，其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐，同时通过将目标检测和图像字幕生成任务整合到预训练中，采用统一的编码 - 解码结构增强了视觉学习。在广泛的视觉 - 语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。

Jun, 2021

弃用预训练：将视觉 - 语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023

SimVLM：简单的弱监督视觉语言模型预训练

本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果，还展示了 SimVLM 获得了强大的泛化和转移能力，实现了零 - shot 行为。

Aug, 2021

视觉 - 语言预训练：基础、最新进展和未来趋势

本文研究多模态智能领域的视觉 - 语言预训练方法，分为三类分类，包含图像 - 文本、核心计算机视觉和视频 - 文本任务，针对每类任务，提出了针对性的方法，分别探究了研究进展和存在的挑战并讨论了更先进的主题。

Oct, 2022

VLP：视觉语言预训练综述

本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章，并对 VLP 模型做了具体总结，旨在为 VLP 领域的未来研究提供启示。

Feb, 2022

面向检测的图像 - 文本预训练的开放词汇测量

基于检测导向的图像 - 文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距，通过使探测器头从嘈杂的图像 - 文本对中学习，我们的方法能够利用对比损失学习到新出现的对象 - 语义线索，在 LVIS 和 COCO 基准测试中均获得了非常有竞争力的结果，并在转移检测设置中显著优于基线。

Sep, 2023