面向开放词汇多标签分类的基于查询的知识共享

Jan, 2024

面向开放词汇多标签分类的基于查询的知识共享

Query-Based Knowledge Sharing for Open-Vocabulary Multi-Label Classification

Xuelin Zhu, Jian Liu, Dongqi Tang, Jiawei Ge, Weijia Liu...

TL;DR提出了一种基于查询的知识共享范式，通过预训练的 VLP 模型从输入图像中提取关键的视觉知识，并通过有效的提示池进行鲁棒的标签嵌入，进而在零样本任务中显著提高了标签识别的性能。

Abstract

Identifying labels that did not appear during training, known as multi-label zero-shot learning, is a non-trivial task in computer vision. To this end, recent studies have attempted to explore the multi-modal knowledge of →

multi-label zero-shot learning computer vision vision-language pre-training knowledge distillation open-vocabulary multi-label classification

发现论文，激发创造

通过多模态知识迁移的开放词汇多标签分类

本研究提出一种新的基于开放词汇的跨模态知识迁移框架 (MKT)，利用视觉和语言预训练模型的多模态知识，采用知识蒸馏技术和双流模块来实现多标签分类和多目标识别，并在公开基准数据集上显著优于现有方法。

Jul, 2022

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练

本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架，其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率，并在广泛的视觉和语言任务上取得了竞争性的表现。

Sep, 2021

选择与概括：选择性双教师知识迁移用于视觉语言模型的持续学习

大规模视觉语言模型（VLMs）展示了对未见域数据具有强大的零样本泛化能力。然而，适应预训练的 VLMs 并执行一系列下游任务时，它们容易忘记以前学到的知识并降低其零样本分类能力。为解决这个问题，我们提出了一种独特的选择性双教师知识迁移框架，利用最新的精细调整和原始的预训练 VLMs 作为双教师来保留以前学到的知识和零样本能力。通过仅访问未标记的参考数据集，我们提出的框架通过测量双教师 VLMs 的特征差异来执行选择性知识蒸馏机制。因此，我们的选择性双教师知识蒸馏将缓解以前学到的知识的灾难性遗忘，同时保留预训练 VLMs 的零样本能力。通过对基准数据集进行大量实验，我们证明了我们的提出的框架对于防止灾难性遗忘和零样本退化的最新持续学习方法是有利的。

Mar, 2024

基于词汇信息的零样本学习和开放集学习

该研究提出了一种基于语义流形的加权最大间隔框架解决零样本学习中面临的挑战，包括有限标记数据、大量标签分类和开放集分类。在 Animal with Attributes 和 ImageNet 数据集上，模型表现得到了显著提高，类词汇量最高可达 310K。

Jan, 2023

半监督词表知悉学习

本文介绍了一种基于最大边距框架的语义流形识别方法，并提出了半监督词汇知识学习的概念，从而实现监督学习、零样本学习和开放式识别的统一框架。该方法在 AwA 和 ImageNet 数据集上的结果显示出了改进。

Apr, 2016

突破通用：利用视觉语言预训练模型增强图像字幕生成的实际知识

利用视觉 - 语言预训练模型（VLP）和知识引导回放（K-Replay）方法，将大规模网络收集的知识融入图像描述中，以提高其准确度和知识识别能力。

Aug, 2023

基于 LLM 增强的提示调整的无数据多标签图像识别

提出了一种无需训练数据的多标签图像识别新框架，利用预训练大型语言模型（LLM）的知识学习提示，使预训练的视觉 - 语言模型（VLM）如 CLIP 适应多标签分类。通过向 LLM 提问获取关于对象的特性和背景的综合知识，为学习提示提供宝贵的文本描述。然后，通过考虑多标签依赖性，提出了一种层次化的提示学习方法，在对象具有相似属性或更有可能共现时，共享特定类别提示标记的子集。由于 CLIP 在视觉和语义上具有显著的对准性，从文本描述学习到的层次化提示被应用于推理过程中的图像分类。我们的框架为探索多个预训练模型之间的协同作用提供了一种新途径。在三个公共数据集（MS-COCO、VOC2007 和 NUS-WIDE）上进行的大量实验证明，我们的方法比现有方法取得更好的结果，尤其是在 MS-COCO 上的零样本多标签识别方法的 mAP 上超过 4.7%。

Mar, 2024

从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力

Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.

Oct, 2023

LLM 见视觉语言模型用于零样本单类别分类

我们提出了一个两步解决方案，首先通过查询大规模语言模型来辨别视觉上具有混淆性的物体，然后依靠视觉 - 语言预训练模型（例如 CLIP）进行分类。通过适应大规模视觉基准测试，我们展示了所提出方法在此情境下优于其他自适应商用替代方案的能力，包括一个在分类树中与正样本在一个固定距离的负样本的细粒度可控版本的 iNaturalist。我们的研究表明，仅通过标签，可以区分单个类别与其他语义相关的类别。

Mar, 2024