多模态预训练中视觉关系的弱监督学习

May, 2023

多模态预训练中视觉关系的弱监督学习

Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining

Emanuele Bugliarello, Aida Nematzadeh, Lisa Anne Hendricks

TL;DR本文研究了使用小规模可视关系数据的预训练方法，包括使用场景图将可视关系三元组转换为结构化说明，以及使用掩模关系预测进一步鼓励从可视上下文中关联实体，并且证明了这些方法从弱监督关系数据中学习多模态表示的有效性。

Abstract

Recent work in vision-and-language pretraining has investigated supervised signals from object detection data to learn better, fine-grained multimodal representations. In this work, we take a step further and explore how we add supervision from small-scale →

vision-and-language pretraining multimodal representations visual relation data verbalised scene graphs masked relation prediction

发现论文，激发创造

视觉关系的弱监督学习

本文介绍了一种新的建模视觉关系方法，设计了强大而灵活的视觉特征，提出了一种弱监督判别式聚类模型来从仅具有图像级标签的数据中学习关系，并引入了一个新的具有挑战性的数据集（UnRel）和详尽的注释，用于准备评估视觉关系检索。实验结果表明，本文提出的模型在视觉关系数据集上取得了显著的提高，并在新引入的 UnRel 数据集上验证了该观察结果的有效性。

Jul, 2017

弱监督视觉引导的关系感知实例细化

本研究提出了一种新的上下文感知弱监督学习方法，它将粗到细的物体细化和实体关系建模结合到一个两阶段深度网络中，以更准确地表述和匹配物体，并通过自我学习回归和关系分析来有效训练必要的分类方法。在 Flickr30K 和 ReferItGame 数据集上的广泛实验表明，本文所提出的弱强化框架比以前的方法具有更好的算法性能，Flickr30K 实体和 ReferItGame 数据集上的 Top-1 准确度分别达到 59.27％和 37.68％。

Mar, 2021

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

视觉表征学习的多模态对比训练

通过同时利用内部数据属性和跨模态关联的语义信息，开发了一种学习视觉表示形式的方法，其中包括多种类型的对比损失，从而提高了学习到的视觉表示的质量。该方法在 COCO 数据集上进行训练，可以被用于图像分类、目标检测、实例分割等下游任务，并在 ImageNet 数据集上实现了 55.3% 的顶级验证精度。

Apr, 2021

再次探讨视觉知觉模型的弱监督预训练

本文介绍一项新的弱监督学习方法 —— 通过标签来监督预训练模型，该方法使用现代残差网络和最大的图像数据集训练模型，实现各种迁移学习的应用，甚至包括零样本学习，且与大规模自监督学习相比具有更好的性能。此方法有助于发展可靠的视觉识别系统。

Jan, 2022

启发式视觉预训练的自监督和有监督多任务学习

提出了一个结合自监督学习和监督学习的多任务预训练框架，用于识别多种视觉任务，结果表明该模型能够达到或超过多个视觉任务的最先进结果的能力。

Oct, 2023

无监督的视觉与语言预训练：无需平行图像和文本

通过无监督预训练实现视觉和语言模型的学习，使用 “mask-and-predict” 方法预训练文本和图像数据，并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁，在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能，挑战了对于 V&L 预训练来说，对齐数据是必要的广泛看法，并显著减少了 V&L 模型的监督所需量。

Oct, 2020

多模态半监督学习文本识别

该文章提出了一种半监督的多模态文本识别方法（SemiMTR），通过使用自监督学习和监督学习相结合的单一阶段，将现有的多模态场景文本识别方法拓展到了未标注数据的应用。该算法利用对视觉模型的预训练和语言模型的微调，同时在每个模态单独地应用连续性正则化方法进行训练，取得了在多个场景文本识别基准测试上的最新成果。

May, 2022

基于解释的弱监督学习在视觉关系中的应用：图网络

该论文提出了一种新型的弱监督方法，使用最少的图像级谓词标签，利用图神经网络从检测到的对象的图形表示中对图像中的谓词进行分类，将关系检测作为谓词分类器的解释，并在三个不同且具有挑战性的数据集上展示结果，表明该方法具有对不全面注释的强健性和良好的少样本泛化能力。

Jun, 2020

基于相对表示的弱监督视觉语言预训练

本研究提出了使用相对表示（relative representations）来构建跨模态锚点，从而实现高质量的图像 - 文本对预训练的 WVLP 框架 RELIT，并通过四个下游任务的实验表现得出了新的最先进结果。

May, 2023