单正多标语义学习中的视觉语言伪标签

Oct, 2023

单正多标语义学习中的视觉语言伪标签

Vision-Language Pseudo-Labels for Single-Positive Multi-Label Learning

Xin Xing, Zhexiao Xiong, Abby Stylianou, Srikumar Sastry, Liyu Gong...

TL;DR提出了一种称为 Vision-Language Pseudo-Labeling 的新方法，通过使用视觉语言模型来建议强正负伪标签，在 Pascal VOC 上提高 5.5％，在 MS-COCO 上提高 18.4％，在 NUS-WIDE 上提高 15.2％，在 CUB-Birds 上提高 8.4％，优于目前的 SOTA 方法。

Abstract

This paper presents a novel approach to single-positive multi-label learning. In general multi-label learning, a model learns to predict m

single-positive multi-label learning multi-label learning vision-language pseudo-labeling computer vision annotation

发现论文，激发创造

单正多标记学习的伪标签

该研究介绍了一种称为伪多标签的方法，通过教师模型在单个正标签上训练，然后使用其预测作为标记数据来训练学生模型，以解决多标签图像分类中数据注释成本高的问题。研究表明，在实际的全标签数据上训练得到的模型性能可以近似于该方法训练得到的模型。

Jun, 2023

单正样本多标签学习中标签偏差的理解

该研究介绍了单正多标签学习中标签偏差的研究方法，并提供了新的经验证据，以便使用仅一个正标签的图像进行有效的多标签分类。

May, 2023

使用广义鲁棒损失提升单一正标签多标签分类

本文研究了单正多标签学习（Single Positive Multi-label Learning - SPML）的问题，提出了基于期望风险最小化的广义损失框架，用于生成软伪标签，并设计了一种能够处理正负样本不平衡同时灵活协调假阳性和假阴性的新型鲁棒损失函数。实验证明，该方法能够显著提高 SPML 性能，在四个基准测试上胜过绝大多数最先进的方法。

May, 2024

VLM-PL：基于视觉 - 语言模型的高级伪标签方法的类别增量对象检测

在 Class Incremental Object Detection（CIOD）领域，解决模型如何像人类一样持续学习的问题是一个重大挑战。为了克服传统的伪标签方法在多场景增量学习中遗忘过去知识的问题，该研究介绍了一种名为 Vision-Language Model assisted Pseudo-Labeling（VLM-PL）的新方法。通过将图像和文本特征组合设计的提示模板生成自定义查询，借助视觉 - 语言模型（VLM），VLM-PL 技术能够验证伪标签的正确性，而无需额外的模型训练。通过将精细化的伪标签和真实标签整合，并结合新旧知识，VLM-PL 在 Pascal VOC 和 MS COCO 数据集上进行了广泛实验，不仅在多场景问题上表现出色，还在双场景问题上取得了最先进的结果。

Mar, 2024

利用单个正标签学习多标签分类问题并识别未知标签

本文提出了一种基于熵最大化损失和非对称伪标签方法的单正类多标记学习方法，能够有效改善 SPML 问题中假阴性标签的影响，提高多标签分类准确性，实验结果表明该方法在四个基准数据集上取得了最新的最佳表现。

Mar, 2022

可以使用类先验来帮助单阳性多标签学习吗？

提出了一种名为 proposed 的新框架，即类别先验引导的单正多标签学习，通过引入类别先验估计器并基于该估计值推导出一种无偏风险估计器，实验证明该方法在十个多标签学习基准数据集上比现有方法更加有效和优越。

Sep, 2023

VLM-CPL：基于视觉 - 语言模型的共识伪标签用于无人工标注的病理图像分类

通过利用预训练的视觉语言模型，以无人工注释的方式进行病理图像分类，通过众包伪标签技术获得伪标签并通过一致性筛选以优化准确性。

Mar, 2024

SemiVL: 基于视觉 - 语言引导的半监督语义分割

SemiVL 是一种结合了视觉 - 语言模型的丰富先验知识与半监督语义分割的方法，通过空间微调策略和语言引导解码器的设计，以及提供类别定义的语言指导，实现了更好的语义决策边界。在 4 个语义分割数据集上进行评估时，SemiVL 明显优于以前的半监督方法，例如，在带有 232 个已注释图像的 COCO 上，mIoU 提高了 + 13.5，在带有 92 个标签的 Pascal VOC 上，mIoU 提高了 + 6.1。

Nov, 2023

PVLR：基于提示的视觉语言表示学习用于多标签图像识别

在这篇论文中，我们提出了一种 Prompt-driven Visual-Linguistic Representation Learning（PVLR）框架，通过双提示策略和交互融合模块，更好地利用了语言模型的能力，以提高多标签图像识别的性能。实验证明了 PVLR 的卓越性能。

Jan, 2024

从单一正样本实现多标签学习

研究一种新的多标签图像分类问题，针对训练数据需要手动标注出所有适用标签的挑战，探索使用缺失标签进行学习的特殊情况，并尝试通过线性分类器和端到端微调深度网络提出新的损失函数来解决这个问题。结果表明，在一些情况下，使用更少的标签进行训练可以接近全部标签训练的性能水平。

Jun, 2021