多模态预训练中视觉关系的弱监督学习
本文介绍了一种新的建模视觉关系方法,设计了强大而灵活的视觉特征,提出了一种弱监督判别式聚类模型来从仅具有图像级标签的数据中学习关系,并引入了一个新的具有挑战性的数据集(UnRel)和详尽的注释,用于准备评估视觉关系检索。实验结果表明,本文提出的模型在视觉关系数据集上取得了显著的提高,并在新引入的 UnRel 数据集上验证了该观察结果的有效性。
Jul, 2017
本研究提出了一种新的上下文感知弱监督学习方法,它将粗到细的物体细化和实体关系建模结合到一个两阶段深度网络中,以更准确地表述和匹配物体,并通过自我学习回归和关系分析来有效训练必要的分类方法。在 Flickr30K 和 ReferItGame 数据集上的广泛实验表明,本文所提出的弱强化框架比以前的方法具有更好的算法性能,Flickr30K 实体和 ReferItGame 数据集上的 Top-1 准确度分别达到 59.27%和 37.68%。
Mar, 2021
本文提出了一种无监督的图像与自然语言跨模态预训练方法,通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估,取得了在无监督设置下的最佳性能。
Mar, 2022
通过同时利用内部数据属性和跨模态关联的语义信息,开发了一种学习视觉表示形式的方法,其中包括多种类型的对比损失,从而提高了学习到的视觉表示的质量。该方法在 COCO 数据集上进行训练,可以被用于图像分类、目标检测、实例分割等下游任务,并在 ImageNet 数据集上实现了 55.3% 的顶级验证精度。
Apr, 2021
本文介绍一项新的弱监督学习方法 —— 通过标签来监督预训练模型, 该方法使用现代残差网络和最大的图像数据集训练模型, 实现各种迁移学习的应用,甚至包括零样本学习,且与大规模自监督学习相比具有更好的性能。此方法有助于发展可靠的视觉识别系统。
Jan, 2022
通过无监督预训练实现视觉和语言模型的学习,使用 “mask-and-predict” 方法预训练文本和图像数据,并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁,在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能,挑战了对于 V&L 预训练来说,对齐数据是必要的广泛看法,并显著减少了 V&L 模型的监督所需量。
Oct, 2020
该文章提出了一种半监督的多模态文本识别方法(SemiMTR),通过使用自监督学习和监督学习相结合的单一阶段,将现有的多模态场景文本识别方法拓展到了未标注数据的应用。该算法利用对视觉模型的预训练和语言模型的微调,同时在每个模态单独地应用连续性正则化方法进行训练,取得了在多个场景文本识别基准测试上的最新成果。
May, 2022
该论文提出了一种新型的弱监督方法,使用最少的图像级谓词标签,利用图神经网络从检测到的对象的图形表示中对图像中的谓词进行分类,将关系检测作为谓词分类器的解释,并在三个不同且具有挑战性的数据集上展示结果,表明该方法具有对不全面注释的强健性和良好的少样本泛化能力。
Jun, 2020
本研究提出了使用相对表示(relative representations)来构建跨模态锚点,从而实现高质量的图像 - 文本对预训练的 WVLP 框架 RELIT,并通过四个下游任务的实验表现得出了新的最先进结果。
May, 2023