LPN:语言引导原型网络用于小样本分类
本文提出了一种新的多标签少样本方面类别检测模型 - 标签增强原型网络 (LPNo),利用标签描述作为辅助知识来学习更具有区分性的原型,结合对比学习和自适应多标签推理模块,同时解决了数据匮乏问题。实验表明,模型在三个数据集上均取得了最先进的性能。
Jun, 2022
我们提出了一种利用 CLIP 等大规模视觉语言模型进行少样本学习的新框架 PROT0-CLIP。该框架通过图像原型和文本原型实现少样本学习,并通过对齐相应类别的图像和文本原型来提高分类效果。我们通过在少样本学习的基准数据集上以及在机器人感知领域的实际应用中进行实验证明了我们方法的有效性。
Jul, 2023
通过语言信息进行语言指导的少样本语义分割,使用视觉 - 语言预训练模型和遮罩优化来生成高质量伪语义遮罩,引入分布式原型监督方法和互补相关匹配模块来指导模型挖掘支持和查询图像的精确语义关系。在两个基准数据集上的实验表明,我们的方法为语言指导的少样本语义分割建立了新的基准,并达到了与最近的视觉指导方法竞争的结果。
Nov, 2023
本文提出了一种基于对比学习的新的 few-shot learning 框架,通过预训练语言模型解决视觉特征与文本嵌入之间的对齐问题,并引入度量模块来实现余弦相似度的泛化,通过双层优化结构中的 MAML 训练模型以提高可迁移性,此外,在多个基准测试上进行了大量实验证明我们方法的有效性。
Jul, 2023
多模态元学习中,通过语言表示来指导视觉学习的多模态架构被提出,但在两个流行的少样本分类基准上验证后发现改进效果不稳定且主要取决于桥连接网络的计算和参数引入。
May, 2024
通过部分冻结的简单微调变体和上下文化标签,提出了一种在有限样本大小下超越传统微调方法的方法,从而显著提高了医学图像的语义嵌入区分度,使得在 1-shot 设置下与常用的 one-hot 标签和其他语义监督方法相比性能提高了 3%-5%。
Dec, 2023
为了解决深度学习中少样本学习的挑战,我们提出了一个简单而有效的框架,专门设计用于利用文本信息和语言模型,通过学习可调的提示来显式地利用预训练的语言模型的零样本能力,并且直接将视觉特征和文本特征进行推断而无需复杂设计的融合模块,进一步运用自集成和蒸馏来增强这些组件,在四个广泛使用的少样本数据集上进行了大量实验证明我们的简单框架取得了令人印象深刻的结果,特别值得注意的是,在 1-shot 学习任务中,我们的分类准确率平均超过基准方法 3.0%。
Jan, 2024
本研究探讨了一种新颖的 “预训练标注 - 弱监督学习” 范式,通过在图像分类任务中基于 CLIP 使用多个提示模板对图像样本进行标注,进而获得多个候选标签以形成含噪部分标签的数据集,并设计了一种协作一致性正则化算法来解决这个问题。实验表明,该方法在无需额外标签信息的情况下显著优于零样本推理,优于其他弱监督学习和少样本微调方法,并获得了更小的模型。
May, 2024
本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章,并对 VLP 模型做了具体总结,旨在为 VLP 领域的未来研究提供启示。
Feb, 2022