本研究提出了一个深度卷积神经网络结构(HCP),可灵活应对多标签图像任务,并成功应用于Pascal VOC2007和VOC2012数据集中,表现优于其他同类算法,最大平均精度达到84.2%。
Jun, 2014
本文提出了一种基于卷积神经网络和循环神经网络的框架,用于多标签图像分类,通过学习图像标签嵌入特征,显式地利用了图像标签之间的关联性,拥有较好的分类性能。
Apr, 2016
本论文提出了一种区域潜在语义依赖模型,该模型使用卷积神经网络和递归神经网络相结合,能够有效预测多标签图像分类中小物体和视觉概念,同时不需要使用边框注释实现最佳性能。
Dec, 2016
本文提出了一种统一的深度神经网络模型,旨在解决多标签图像分类中标签的空间关系的问题。同时,该模型能够有效地利用语义和空间关系来提高分类性能,且只需要使用图像级别的监督信息进行端到端训练。实验表明,该模型在多个公共数据集上均具有较强的泛化能力,并且明显优于其他同类模型。
Feb, 2017
本文提出了用于多标签分类的联合学习注意力和循环神经网络模型,可有效利用注意力和LSTM模型,并且扩展了beam搜索技术以提高效率。
Jul, 2017
本研究提出了一种循环注意强化学习框架,通过迭代地发现一系列关注和信息区域,以及进一步预测这些区域中的标签得分,从而实现多标签图像识别。
Dec, 2017
提出了一种基于图卷积网络的多标签分类模型,通过建立对象标签之间的图,学习一个对相互依赖的物体分类器的表示,同时使用重新加权的方法来创建有效的标签相关矩阵以指导 GCN 中节点之间的信息传播,在两个多标签图像识别数据集上实验证明了方法的有效性,并且可视化分析表明该模型学习到的分类器保持有意义的语义拓扑结构。
Apr, 2019
本文提出了一种简单而高效的双流框架方法,使用全局图像到局部区域的方法识别多类别目标,并提出了多类关注区域模块(MCAR)来解决关注区域数量过多,生成复杂问题,这种方法仅使用图像语义就可以创建新的最佳结果,并在不同因素下进行了广泛的展示。
Jul, 2020
本文提出了一种新颖的端到端模型DSDL,将多标签图像分类问题视为字典学习任务,利用自动编码器将类级语义生成语义词典,利用字典表示CNN提取的视觉特征,同时通过APUS算法优化,为多标签图像分类问题提供了一种简单而优雅的解决方案,与现有技术相比具有更好的性能。
Dec, 2020
本文提出了 Multi-label Transformer architecture(MlTr)并应用于多标签图像分类任务中,利用 windows partitioning、in-window pixel attention、cross-window attention 探索解决 CNN-based 方法遇到的关键问题并取得了性能显著提升。实验结果表明该方法在各种多标签数据集中表现出色,如 MS-COCO、Pascal-VOC 和 NUS-WIDE,分别达到 88.5%、95.8% 和 65.5%。
Jun, 2021