无监督预训练的语言 - 视觉提示用于低数据实例分割

May, 2024

无监督预训练的语言 - 视觉提示用于低数据实例分割

Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation

Dingwen Zhang, Hao Li, Diqi He, Nian Liu, Lechao Cheng...

TL;DR在当前的研究中，根据最新的 DETR（DEtection TRansformer）范式，基于查询的端到端实例分割（QEIS）方法在大规模数据集上训练时表现出了卓越的性能，尤其是与基于 CNN 的模型相比。然而，当面对有限的训练数据时，这些 QEIS 方法的有效性显著降低。为解决这一问题，我们提出了一种新颖的方法，用于无监督预训练在低数据环境中，即 Unsupervised Pre-training with Language-Vision Prompts (UPLVP)，通过将语言 - 视觉提示引入查询 / 核心，改善了 QEIS 模型的实例分割。我们的方法包括三个部分：(1) Mask Proposal：利用语言 - 视觉模型基于无标签图像生成伪掩膜。(2) Prompt-Kernel Matching：将伪掩膜转换为提示，并将最佳匹配的定位和形状特征注入到对应的核心中。(3) Kernel Supervision：以核心级别制定预训练的监督，以确保鲁棒学习。在我们的预训练方法的帮助下，QEIS 模型可以在低数据环境中更快地收敛并表现出更好的性能，实验评估表明，当使用我们的方法进行预训练时，QEIS 模型在 MS COCO、Cityscapes 和 CTW1500 数据集上的表现可以显著提高。代码将在此 https URL 中提供。

Abstract

In recent times, following the paradigm of detr (DEtection TRansformer), query-based end-to-end instance segmentation (QEIS) methods have exhibited superior performance compared to CNN-based models, particularly

detr query-based end-to-end instance segmentation unsupervised pre-training language-vision prompts low-data regimes

发现论文，激发创造

使用显著性提示的无监督预训练提高低数据实例分割

本研究提出了一种基于未标注图像的显著性策略和 Prompting 技术的无监督预训练方法，包括三个步骤：显著性掩码提取、Prompt-Kernel 匹配和核监督。在低数据环境中有效地提高了 QEIS 模型的性能和收敛速度。

Feb, 2023

视觉语言模型的无监督提示学习

本文提出了一种无监督提示学习（UPL）方法，以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示，在 ImageNet 以及其他 10 个数据集上，与原始 CLIP 相比，UPL 具有更优秀的传输表现，并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。

Apr, 2022

UP-DP: 无监督任务学习用于视觉语言模型的数据预选

本研究通过一次遍历未标记数据集来为有限的标注预算优化性能，从而研究数据预选任务。我们引入了 UP-DP，一种简单而有效的无监督提示学习方法，通过适应 BLIP-2 等视觉语言模型进行数据预选，获得了改进表示的联合特征。在七个基准数据集的不同设置下，我们广泛比较了我们的方法与最先进的方法，取得了 20% 的性能提升。据我们所知，UP-DP 是首个将无监督提示学习引入视觉语言模型中进行数据预选的工作。

Jul, 2023

PiTL：基于提示的弱监督视觉语言预训练的跨模态检索

本文提出了一种利用大型语言模型从图像中生成标签以进行虚实预训练，减少了对昂贵标注数据的需求，并在图片文字检索方面得到显著的效果提升。

Jul, 2023

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

无监督的视觉与语言预训练：无需平行图像和文本

通过无监督预训练实现视觉和语言模型的学习，使用 “mask-and-predict” 方法预训练文本和图像数据，并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁，在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能，挑战了对于 V&L 预训练来说，对齐数据是必要的广泛看法，并显著减少了 V&L 模型的监督所需量。

Oct, 2020

无需训练的无监督视觉 - 语言模型提示

从大量的预先训练图像 - 语言模型 (VLMs) 调整到下游任务的适应性最好的范式变成了即刻学习。我们提出了无需训练的无监督提示 (TFUP)，它在无需训练或标记的情况下最大程度地保留了内在的表现能力，并通过将预测概率与基于相似度的预测概率之间的残差连接进行增强。然后，我们使用实例置信度和原型分数来选择代表性样本，这些样本用于定制训练自由推理的可靠特征缓存模型 (FCM)。我们设计了一种多级相似度度量 (MSM)，它考虑了特征级和语义级相似度，以计算每个测试图像与缓存样本之间的距离，作为相应缓存标签的权重，进而生成基于相似度的预测概率。通过这种方式，TFUP 在多个分类数据集上实现了令人惊讶的性能，甚至超过了基于训练的方法。在我们的 TFUP 基础上，我们提出了一个训练为基础的方法 (TFUP-T) 来进一步提升适应性能力。除了标准的交叉熵损失外，TFUP-T 还采用了额外的边际分布熵损失，从全局角度约束模型。与无监督和少样本适应方法在多个基准测试中相比，我们的 TFUP-T 实现了新的最先进的分类性能。特别是，在最具挑战的 Domain-Net 数据集上，TFUP-T 将 POUF 的分类准确度提高了 3.3%。

Apr, 2024

PromptKD: 无监督的视觉语言模型提示蒸馏

在这篇论文中，我们介绍了一种无监督域提示蒸馏框架，通过使用未标记的领域图像进行提示驱动的模仿，旨在将更大的教师模型的知识转移给轻量级目标模型。

Mar, 2024

POUF: 面向提示的无监督微调大规模预训练模型

本研究提出一种无监督的精调框架，用于快速和直接地向未标记的目标数据进行深度学习模型的预训练，并在图像分类、情感分析和自然语言推理任务中实现了持续的改进。

Apr, 2023

弃用预训练：将视觉 - 语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023