通过多模态提示检索学习真假标签

May, 2024

通过多模态提示检索学习真假标签

Learning from True-False Labels via Multi-modal Prompt Retrieving

Zhongnian Li, Jinghao Xu, Peng Ying, Meng Wei, Tongfeng Sun...

TL;DR我们提出了一个新的弱监督标签设置，即真假标签（TFLs），通过预训练的视觉语言模型（VLMs）生成的 TFLs 可以实现高准确性。我们理论上推导了一种风险一致估计器，以探索和利用 TFLs 的条件概率分布信息。此外，我们提出了一种基于卷积的多模态提示检索（MRP）方法，以弥合 VLMs 的知识与目标学习任务之间的差距。实验结果证明了所提出的 TFL 设置和 MRP 学习方法的有效性。

Abstract

weakly supervised learning has recently achieved considerable success in reducing annotation costs and label noise. Unfortunately, existing weakly supervised learning methods are short of ability in generating reliable labels via pre-trained →

weakly supervised learning label generation vision-language models true-false labels multi-modal prompt retrieving

发现论文，激发创造

重新审视自训练用于语言模型的小样本学习

本研究介绍了一种最先进的基于提示的少样本学习器 ——SFLM，该模型使用自训练技术来对语言模型进行微调，仅依赖于少量未标记的领域内数据，并在句子分类和句子对分类基准任务上优于其他最先进的监督和半监督对手。

Oct, 2021

基于 LLM 增强的提示调整的无数据多标签图像识别

提出了一种无需训练数据的多标签图像识别新框架，利用预训练大型语言模型（LLM）的知识学习提示，使预训练的视觉 - 语言模型（VLM）如 CLIP 适应多标签分类。通过向 LLM 提问获取关于对象的特性和背景的综合知识，为学习提示提供宝贵的文本描述。然后，通过考虑多标签依赖性，提出了一种层次化的提示学习方法，在对象具有相似属性或更有可能共现时，共享特定类别提示标记的子集。由于 CLIP 在视觉和语义上具有显著的对准性，从文本描述学习到的层次化提示被应用于推理过程中的图像分类。我们的框架为探索多个预训练模型之间的协同作用提供了一种新途径。在三个公共数据集（MS-COCO、VOC2007 和 NUS-WIDE）上进行的大量实验证明，我们的方法比现有方法取得更好的结果，尤其是在 MS-COCO 上的零样本多标签识别方法的 mAP 上超过 4.7%。

Mar, 2024

一种多模块鲁棒的瞬时稳定性评估方法对抗虚假标签注入网络攻击

在这篇研究论文中，提出了一种名为多模块鲁棒的瞬态稳定性评估方法（MMR）来解决训练数据中虚假标签注入的问题，并引入人在循环训练策略（MMR-HIL）以进一步提高准确性和收敛速度。实验证明，MMR 和 MMR-HIL 方法在瞬态稳定性评估性能上表现出强大的鲁棒性，并且能够有效纠正受污染的标签，展现了优秀的恢复能力。

Jun, 2024

无需训练的无监督视觉 - 语言模型提示

从大量的预先训练图像 - 语言模型 (VLMs) 调整到下游任务的适应性最好的范式变成了即刻学习。我们提出了无需训练的无监督提示 (TFUP)，它在无需训练或标记的情况下最大程度地保留了内在的表现能力，并通过将预测概率与基于相似度的预测概率之间的残差连接进行增强。然后，我们使用实例置信度和原型分数来选择代表性样本，这些样本用于定制训练自由推理的可靠特征缓存模型 (FCM)。我们设计了一种多级相似度度量 (MSM)，它考虑了特征级和语义级相似度，以计算每个测试图像与缓存样本之间的距离，作为相应缓存标签的权重，进而生成基于相似度的预测概率。通过这种方式，TFUP 在多个分类数据集上实现了令人惊讶的性能，甚至超过了基于训练的方法。在我们的 TFUP 基础上，我们提出了一个训练为基础的方法 (TFUP-T) 来进一步提升适应性能力。除了标准的交叉熵损失外，TFUP-T 还采用了额外的边际分布熵损失，从全局角度约束模型。与无监督和少样本适应方法在多个基准测试中相比，我们的 TFUP-T 实现了新的最先进的分类性能。特别是，在最具挑战的 Domain-Net 数据集上，TFUP-T 将 POUF 的分类准确度提高了 3.3%。

Apr, 2024

PiTL：基于提示的弱监督视觉语言预训练的跨模态检索

本文提出了一种利用大型语言模型从图像中生成标签以进行虚实预训练，减少了对昂贵标注数据的需求，并在图片文字检索方面得到显著的效果提升。

Jul, 2023

弱监督技术下的多模态视觉概念学习

本文介绍了两种基于多示例学习框架的弱监督技术，即模糊集多示例学习和概率标签多实例学习，旨在利用文本线索自动识别视频概念，同时提供一种提取复杂语义中的弱标签的新方法。作者在 COGNIMUSE 数据库中展示了这些方法在面部和动作识别任务上的较强性能。

Dec, 2017

多模态原型的开放式词汇联邦学习

针对联邦学习中的开放词汇挑战，本研究提出一种名为联邦多模态原型 (Fed-MP) 的适应性聚合框架以及一种基于轻量级客户端残差的多模态原型机制，从而在联邦学习背景下，利用预训练的视觉 - 语言模型进行知识学习，并使该模型适应未曾见过的类别。经过对多种数据集的实证评估，验证了 Fed-MP 的有效性。

Apr, 2024

利用 LLMs 自动化零射视觉识别的元提示

通过 Meta-Prompting for Visual Recognition (MPVR) 方法，仅凭目标任务的简短自然语言描述和相关类别标签的最小信息输入，自动产生一组多样的类别特定提示，从而实现强大的零样本分类器。在多个不同领域的流行的零样本图像识别基准上，使用多个 LLMs 和 VLMs 测试，MPVR 可以有效地推广，比 CLIP 提高了最高 19.8％和 18.2％（平均 20 个数据集上分别为 5.0％和 4.5％），依赖于 GPT 和 Mixtral LLMs。

Mar, 2024

条件下的原型修正提示学习

利用大规模的预先训练的视觉语言模型，通过高效的迁移学习方法解决基类过拟合问题，提出了一种条件原型纠正提示学习方法，有效地纠正了基类示例的偏差并增加了有限数据量，在少样本分类和从基类到新类的泛化任务中实现了最先进的性能。

Apr, 2024

逐步多模态条件提示调整

通过迭代利用图像和当前的编码信息，我们提出了一种新颖的方法 —— 渐进式多模态条件 Prompt 调整（ProMPT），通过多模态提示的方式使视觉 - 语言特征逐步对齐，从而实现从粗糙到准确的分类。在所有设置中，广泛的实验证明了 ProMPT 方法相对于现有方法的优越性。

Apr, 2024