LPN：语言引导原型网络用于小样本分类

Jul, 2023

LPN：语言引导原型网络用于小样本分类

LPN: Language-guided Prototypical Network for few-shot classification

Kaihui Cheng, Chule Yang

TL;DR本文提出了一种基于语言引导的原型网络 (LPN)，通过引入语言模态和计算视觉特征向量之间的相似性，从而改进了少样本分类任务。实验结果表明，该方法在基准数据集上具有与最先进方法相当的竞争力。

Abstract

few-shot classification aims to adapt to new tasks with limited labeled examples. To fully use the accessible data, recent methods explore suitable measures for the similarity between the query and support images and better high-dimensional features with meta-training and pre-training

few-shot classification language-modality lpn text encoder visual features

发现论文，激发创造

使用对比学习增强标签的原型网络在多标签少样本方面分类检测上的应用

本文提出了一种新的多标签少样本方面类别检测模型 - 标签增强原型网络 (LPNo)，利用标签描述作为辅助知识来学习更具有区分性的原型，结合对比学习和自适应多标签推理模块，同时解决了数据匮乏问题。实验表明，模型在三个数据集上均取得了最先进的性能。

Jun, 2022

Proto-CLIP: 视觉 - 语言原型网络在少样本学习中的应用

我们提出了一种利用 CLIP 等大规模视觉语言模型进行少样本学习的新框架 PROT0-CLIP。该框架通过图像原型和文本原型实现少样本学习，并通过对齐相应类别的图像和文本原型来提高分类效果。我们通过在少样本学习的基准数据集上以及在机器人感知领域的实际应用中进行实验证明了我们方法的有效性。

Jul, 2023

语言引导的少样本语义分割

通过语言信息进行语言指导的少样本语义分割，使用视觉 - 语言预训练模型和遮罩优化来生成高质量伪语义遮罩，引入分布式原型监督方法和互补相关匹配模块来指导模型挖掘支持和查询图像的精确语义关系。在两个基准数据集上的实验表明，我们的方法为语言指导的少样本语义分割建立了新的基准，并达到了与最近的视觉指导方法竞争的结果。

Nov, 2023

多模态原型网络用于少样本学习

该论文提出了一种跨模态特征生成框架，利用文本数据来弥补计算机视觉任务中数据稀缺的不足，进而提高分类结果，并在实验中证明该方法的有效性。

Nov, 2020

FILM: 少样本图像分类如何从预训练语言模型中受益？

本文提出了一种基于对比学习的新的 few-shot learning 框架，通过预训练语言模型解决视觉特征与文本嵌入之间的对齐问题，并引入度量模块来实现余弦相似度的泛化，通过双层优化结构中的 MAML 训练模型以提高可迁移性，此外，在多个基准测试上进行了大量实验证明我们方法的有效性。

Jul, 2023

多模态元学习中使用条件批量归一化的辅助任务调节的限制

多模态元学习中，通过语言表示来指导视觉学习的多模态架构被提出，但在两个流行的少样本分类基准上验证后发现改进效果不稳定且主要取决于桥连接网络的计算和参数引入。

May, 2024

基于大型语言模型的高效少样本临床任务适应

通过部分冻结的简单微调变体和上下文化标签，提出了一种在有限样本大小下超越传统微调方法的方法，从而显著提高了医学图像的语义嵌入区分度，使得在 1-shot 设置下与常用的 one-hot 标签和其他语义监督方法相比性能提高了 3%-5%。

Dec, 2023

少即是多：多模态少样本学习的深入研究

为了解决深度学习中少样本学习的挑战，我们提出了一个简单而有效的框架，专门设计用于利用文本信息和语言模型，通过学习可调的提示来显式地利用预训练的语言模型的零样本能力，并且直接将视觉特征和文本特征进行推断而无需复杂设计的融合模块，进一步运用自集成和蒸馏来增强这些组件，在四个广泛使用的少样本数据集上进行了大量实验证明我们的简单框架取得了令人印象深刻的结果，特别值得注意的是，在 1-shot 学习任务中，我们的分类准确率平均超过基准方法 3.0%。

Jan, 2024

预训练的视觉语言模型作为部分注解器

本研究探讨了一种新颖的 “预训练标注 - 弱监督学习” 范式，通过在图像分类任务中基于 CLIP 使用多个提示模板对图像样本进行标注，进而获得多个候选标签以形成含噪部分标签的数据集，并设计了一种协作一致性正则化算法来解决这个问题。实验表明，该方法在无需额外标签信息的情况下显著优于零样本推理，优于其他弱监督学习和少样本微调方法，并获得了更小的模型。

May, 2024

VLP：视觉语言预训练综述

本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章，并对 VLP 模型做了具体总结，旨在为 VLP 领域的未来研究提供启示。

Feb, 2022