利用词向量引导的注意力推断多标签少样本图像分类的原型

AAAIDec, 2021

利用词向量引导的注意力推断多标签少样本图像分类的原型

Inferring Prototypes for Multi-Label Few-Shot Image Classification with Word Vector Guided Attention

Kun Yan, Chenbin Zhang, Jun Hou, Ping Wang, Zied Bouraoui...

TL;DR本文提出了一种使用词嵌入作为多标签图像分类问题的先验知识的解决方案，在少量训练数据的情况下，通过聚合支持图像的本地特征图来获取视觉原型，并通过注意力机制基于标签嵌入来确定相关区域，其在 COCO 和 PASCAL VOC 实验中均优于现有最新成果。

Abstract

multi-label few-shot image classification (ML-FSIC) is the task of assigning descriptive labels to previously unseen images, based on a sm

multi-label few-shot image classification word embeddings attention mechanism

发现论文，激发创造

将视觉原型与 BERT 嵌入对齐，用于少样本学习

提出了一种考虑图像类别名称的少样本学习方法，利用 BERT 模型学习类别名称嵌入来分离视觉和文本特征，同时采用跨语言词向量对高维度 Bert 嵌入进行处理，实验结果表明该方法在少样本图像分类任务上取得了领先水平。

May, 2021

多方位原型的少样本图像分类

本文提出了一种基于 facets 的自适应相似性度量方法，该方法可以被用于改进现有的基于度量的 few-shot learning 模型，并在 miniImageNet 和 CUB 数据集上实现了 state-of-the-art 的表现。

Feb, 2021

视觉 - 语义对比对齐在小样本图像分类中的应用

本文介绍了一种对称的对齐机制，用于学习从极少的例子中获取更广义的视觉概念的方法。实验结果表明，该方法是通用的，并提供了一个强大的基准。

Oct, 2022

基于语义学的交互心理测量的少样本学习

本文提出了一种基于内部语义关系的交互心理测量学方法，旨在解决少样本图像分类问题中标签监督性与复杂概念关系不兼容的挑战性场景，实验结果表明我们的方法在 CIFAR-100 数据集上有很好的表现以及优越性。

Dec, 2021

语言引导的少样本语义分割

通过语言信息进行语言指导的少样本语义分割，使用视觉 - 语言预训练模型和遮罩优化来生成高质量伪语义遮罩，引入分布式原型监督方法和互补相关匹配模块来指导模型挖掘支持和查询图像的精确语义关系。在两个基准数据集上的实验表明，我们的方法为语言指导的少样本语义分割建立了新的基准，并达到了与最近的视觉指导方法竞争的结果。

Nov, 2023

基于语义感知的少样本类别增量学习知识蒸馏

本研究提出一种用于解决 few-shot class incremental learning（FSCIL）问题的蒸馏算法，该算法利用语义信息进行训练，同时提出基于注意机制的方法来对齐视觉和语义向量，从而有效降低了灾难性遗忘的影响，并成功地在 MiniImageNet、CUB200 和 CIFAR100 数据集上创下了新的最优结果。

Mar, 2021

来自图像标签文本的迭代式少样本语义分割

本文提出了一种利用视觉 - 语言模型 CLIP 生成粗略掩模并迭代互相调整支持和查询图片的掩模预测的框架，实验结果表明该方法不仅在 PASCAL-5i 和 COCO-20i 数据集上优于最先进的弱监督方法，还能够取得与最近的有监督方法相当甚至更好的结果，并且具有出色的野外图像和非常规类别的泛化能力。

Mar, 2023

使用视觉和语义嵌入的共同关注实现弱监督的少样本目标分割

本文提出了一种基于多模态交互模块的小样本物体分割方法，该方法利用视觉和词嵌入的协同注意机制，使用图像级标签在 PASCAL-5i 数据集上实现了 4.8％的提高，并在 YouTube-VOS 数据集上展示了 TOSFL 实验的实例级和类别级结果。

Jan, 2020

少样本分类中的泛化思考

通过将输入样本分割成补丁，并借助 Vision Transformers 对其进行编码，从而在图像的局部区域之间建立语义对应关系，而不受其各自类别的影响。利用掩蔽图像建模等方法进行无监督训练，以克服标签不够精细以及避免负面的图像级注释影响，实现了对数据的更一般的统计结构的学习，并在四个流行的 Few-shot 分类基准测试中，对于 5-shot 和 1-shot 情形均取得了新的最优结果。

Jun, 2022

丰富的语义改善少样本学习

利用少量的『类别级别』的语言描述，结合视觉特征分形成一个瓶颈视觉特征 (混合原型) 并建立一种 Transformer 机制，以编码这两种形式的丰富语义，并且经过多个数据集的实验证明，该算法能有效提升 few-shot learning 的性能。

Apr, 2021