从自然语言监督中学习可转移的视觉模型
通过无监督预训练实现视觉和语言模型的学习,使用 “mask-and-predict” 方法预训练文本和图像数据,并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁,在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能,挑战了对于 V&L 预训练来说,对齐数据是必要的广泛看法,并显著减少了 V&L 模型的监督所需量。
Oct, 2020
该研究重点研究了通过使用不同于传统方法的先前训练模型知识来改进视频分类的方法,简单而有效的调整模式在各种视频识别场景中达到了最先进的表现。
Jul, 2022
本文利用包含超过 10 亿个图像备选文本对的嘈杂数据集,采用简单的双编码器体系结构通过对比损失,学习了图像和文本对的视觉和语言表示,显示出我们语料库的规模可以弥补其噪音,即使使用这样的简单学习方案也能实现最先进的表现,使跨模式搜索变得更加容易。
Feb, 2021
本文探讨了如何从文本数据中学习计算机视觉领域所需的高层次技能,并将其转移到视觉任务中,同时提出探究对比模型嵌入空间中不同模态的系统差异,进一步理解和缓解这种关注的策略。实践证明,我们使用仅文本训练数据在图像标注、视觉蕴含、视觉问题回答和视觉新闻等四个代表性任务上建立的模型,性能表现接近仅使用图像训练数据建立的模型,尤其是针对图像标注和视觉蕴含任务的文本训练数据,有望超过 9 个百分点的提升。同时,我们还展示了多种样式的图像标注模型,这些模型使用的不是图像数据和人工策划的语言数据,而是来自于图书、网络或语言模型可用的文本数据。
Nov, 2022
本文介绍了一种使用未标记的图像集合和大型语言模型自动生成标签,并通过这种非监督方式实现了零样本分类器性能的显著提高的方法。与传统的监督训练方法相比,在多个数据集上的绝对提升高达 11.7%(平均 3.8%),而与一些少样本提示基线相比的平均增益为 1.3%。
May, 2023
本文提出了一种通过图像 - 句子对学习的方法,以提取图像中本地化对象及其关系的图形表示,即场景图,其中利用了现成的对象检测器来识别和定位对象实例,并通过掩码标记预测任务预测伪标签以学习场景图。通过学习图像 - 句子对,我们的模型相较于使用人工注释的非定位场景图训练的最新方法获得了 30%的相对增益。同时,在弱监督和全监督场景图生成方面,我们的模型也展现了出色的结果,我们还探究了用于检测场景图的开放词汇设置,并呈现了首个开放式场景图生成的结果。
Sep, 2021
通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念,通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法,可以训练神经网络。在图像字幕任务中,我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果,并进一步表明,我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念,同时保持竞争性的 COCO 评估得分。
Jun, 2018
本篇研究综述了当下 Vision-and-Language 领域内的预训练模型,并归纳总结了相关预训练技术、训练集以及下游任务。同时,文章还讨论了未来研究的多个方向。
Jul, 2022
提出了一种新的预训练范式 —— 基于网络截图的强监督预训练(S4),利用大规模网络截图渲染的数据进行视觉语言模型的预训练。通过使用网络截图,可以获取在图像 - 文本对中不存在的丰富的视觉和文本线索。在 S4 中,利用 HTML 元素的树状层次结构和空间定位,精心设计了 10 个具有大规模注释数据的预训练任务。这些任务类似于不同领域的下游任务,而且注释成本较低。实验证明,与当前的截图预训练目标相比,我们的创新预训练方法显著提高了图像 - 文本模型在九个多样化和热门的下游任务上的性能 —— 在表格检测上提高了 76.1%,在小部件字幕上提高了至少 1%。
Mar, 2024