Few-Shot 识别的属性引导与纯视觉注意力对齐
提出一种基于 multi-label 分类、视觉注意力机制、以及解决数据类别不平衡问题的损失函数等的方法,实现了在 PETA 和 WIDER-Attribute 数据集中的人体属性识别,并取得了最先进的效果。
Jul, 2018
本文提出一种新颖的 Attribute-Aware Attention Model(A^3M)模型,可以同时学习局部属性表示和全局类别表示,通过属性 - 类别互惠过程,从而更好地提取图像中的固有信息,以实现更好的图像识别效果。
Jan, 2019
提出一种基于属性本地化的图像表示学习框架,通过视觉语义嵌入层学习全局特征,并通过属性原型网络同时回归和解相关属性,为任意样本,包括零样本和少样本图像分类任务提供有益的属性知识转移,并引入变焦模块以局部化和裁剪信息区域鼓励网络显式地学习最有效的特征。此外,该模型通过视觉化和用户研究定量和定性评估属性本地化能力,并在三个基准测试中取得新的最优结果。
Apr, 2022
本文提出一种新的 few-shot 学习方法,通过优化和快速适应查询样本的表示来改进 few-shot 分类,所提出的自适应注意力模型还能够解释分类模型所寻找的证据。在各种基准 few-shot 分类和精细识别数据集上,实验证明了所提出模型的分类结果达到了最先进水平。
Aug, 2020
本研究采用自然语言反馈的图像检索方法,结合图像与文本特征实现细粒度视觉搜索并提出了 MAAF 模型,在 Fashion IQ 和 CSS 数据集中比现有方法表现更优,同时在 Fashion200k 数据集中也取得竞争性表现。此外,我们还提出了两个适用于丰富语言输入的新挑战基准,并通过实验证明该方法在不修改时优于强基线。最后我们在 Fashion IQ 上进行了深入细致的分析和可视化,揭示了单词避免 “关注” 他们所指图像区域的惊人现象
Jun, 2020
本论文提出了一个基于元学习的方法用于 few-shot 目标检测,通过使用两种类型的注意机制对查询和支持特征图进行聚合以提高性能并最大化支持数据的多样性。
Sep, 2021
本篇文章基于自动姿态提取,提出了在时尚领域中用于多标签分类的带引导注意力的紧凑框架,通过视觉语义注意力模型(VSAM)进行监督,在不使用地标注注释的情况下在 DeepFashion 数据集上取得了与之前工作相当的性能,同时还证明了我们的语义注意力模块对更多错误注释的容错性和提供更可解释结果的价值。
Nov, 2019
本文提出了一种机制,可以根据待学习的新图像类别自适应地从视觉和语义两方面结合信息,通过一系列实验表明,这种自适应组合可以在所有基准和 few-shot 情景上大幅优于当前单模态学习方法和模态对齐方法,特别是在少样本的情况下。
Feb, 2019