VirTex：从文本注释中学习视觉表示

CVPRJun, 2020

VirTex：从文本注释中学习视觉表示

VirTex: Learning Visual Representations from Textual Annotations

Karan Desai, Justin Johnson

TL;DR使用 COCO Captions 监督预训练的 VirTex 方法可以在使用更少的图像的情况下，产生与 ImageNet 监督或非监督学习得到的特征所匹配或超越的视觉表征。

Abstract

The de-facto approach to many vision tasks is to start from pretrained visual representations, typically learned via supervised training on ImageNet. Recent methods have explored unsupervised pretraining to scale to vast quantities of unlabeled images. In contrast, we aim to learn high-quality visual representations from fewer images. To this end, we revisit

visual representation supervised pretraining virtex data-efficient coco captions

发现论文，激发创造

LocTex: 从本地文本监督中学习数据高效视觉表征

本文提出了一种名为 LocTex 的计算机视觉方法，它利用了低成本的本地化文本标注和鼠标轨迹，通过对图像和标题的对比预训练和监督跨模态关注图，从而提供粗略的本地化信号，从而减少标注数据的数量。它学习到的视觉特征可以捕捉自由形式的标题的丰富语义和鼠标轨迹的准确本地化，可以转移到各种下游视觉任务中，并且比 ImageNet 的监督预训练方法可以将预训练数据集的大小缩小 10 倍或目标数据集的大小缩小 2 倍，同时在 COCO 实例分割上实现可比较甚至更高的性能。在拥有相同数量的注释的情况下，LocTex 在 PASCAL VOC 图像分类任务上比以前最先进的 “视觉 + 语言” 预训练方法提高了约 4% 的准确性。

Aug, 2021

无监督的视觉与语言预训练：无需平行图像和文本

通过无监督预训练实现视觉和语言模型的学习，使用 “mask-and-predict” 方法预训练文本和图像数据，并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁，在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能，挑战了对于 V&L 预训练来说，对齐数据是必要的广泛看法，并显著减少了 V&L 模型的监督所需量。

Oct, 2020

使用带噪文本监督扩展视觉和视觉语言表示学习

本文利用包含超过 10 亿个图像备选文本对的嘈杂数据集，采用简单的双编码器体系结构通过对比损失，学习了图像和文本对的视觉和语言表示，显示出我们语料库的规模可以弥补其噪音，即使使用这样的简单学习方案也能实现最先进的表现，使跨模式搜索变得更加容易。

Feb, 2021

图像字幕半监督框架

提出了一种新的图像字幕生成方法，该方法能够利用无图像数据的文本数据，并使用区域图像特征生成有意义的二进制向量，从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量，并通过软关注机制对其进行解码。

Nov, 2016

VIVO：用于新颖物体字幕生成的视觉词汇预训练

通过 VIVO 预训练模型，该论文提出了一种使用无注释图像和标签数据进行预训练的方法，通过预训练一个多层转换器模型来学习视觉词汇，并验证了其在图像字幕生成中的有效性。

Sep, 2020

从自然语言监督中学习可转移的视觉模型

通过预测图像与文本配对来预训练计算机视觉系统，使其可以从自然语言描述中直接学习视觉概念，从而实现零样本迁移，并在多个计算机视觉任务上展现出竞争力。

Feb, 2021

面向检测的图像 - 文本预训练的开放词汇测量

基于检测导向的图像 - 文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距，通过使探测器头从嘈杂的图像 - 文本对中学习，我们的方法能够利用对比损失学习到新出现的对象 - 语义线索，在 LVIS 和 COCO 基准测试中均获得了非常有竞争力的结果，并在转移检测设置中显著优于基线。

Sep, 2023

为密集视频字幕编写进行多模态预训练

本文介绍了在视频学习中生成元信息的困难性，提出了一种基于时间戳注释的新数据集 Video Timeline Tags（ViTT）以及采用多模态序列预训练策略来预训练和微调密集视频字幕模型，证明了该模型可以很好地泛化和适用于各种各样的教学视频。

Nov, 2020

将语义概念注入端到端图像字幕生成

本文提出了一种全新的视觉变换器（Vision transformer-based）图像标题模型 ViTCAP，使用网格表示而不提取区域特征。为了提高性能，引入了基于 Vision Transformer 的概念令牌网络（CTN），可以高效地预测语义概念，并将其整合到端到端的标题生成中，从而实现竞争性能，同时简化了结构。

Dec, 2021

利用标题中的信息进行弱监督语义分割

通过多模态网络，该工作借助互联网上的图像标注来进行弱监督学习，实现语境上下文对图像中出现的类别的提取与分割，并在 COCO 数据集上取得了 SOTA 的结果。

May, 2019