基于循环注意力增强学习的多标签图像识别
提出使用基于注意力模型的深度循环神经网络,加上强化学习训练,以识别并定位输入图像中的多个目标。通过在谷歌街景图像中转录房屋编号序列的挑战性任务上的测试,表明该模型精度高于现有最先进的卷积神经网络,且使用的参数和计算量较少。
Dec, 2014
本文提出了一种基于全卷积注意力网络(FCANs)的强化学习框架,用于优化细粒度识别中的局部区域,并避免耗费昂贵的部件注释和定义困难的细粒度类别,该方法在包括CUB-200-2011、斯坦福狗、斯坦福汽车和Food-101等四个基准数据集上得到了证明。
Mar, 2016
本文提出了一种基于卷积神经网络和循环神经网络的框架,用于多标签图像分类,通过学习图像标签嵌入特征,显式地利用了图像标签之间的关联性,拥有较好的分类性能。
Apr, 2016
本论文提出了一种区域潜在语义依赖模型,该模型使用卷积神经网络和递归神经网络相结合,能够有效预测多标签图像分类中小物体和视觉概念,同时不需要使用边框注释实现最佳性能。
Dec, 2016
本文提出了一种统一的深度神经网络模型,旨在解决多标签图像分类中标签的空间关系的问题。同时,该模型能够有效地利用语义和空间关系来提高分类性能,且只需要使用图像级别的监督信息进行端到端训练。实验表明,该模型在多个公共数据集上均具有较强的泛化能力,并且明显优于其他同类模型。
Feb, 2017
本文提出了一种利用深度学习技术中的循环记忆-关注模块来实现图像多标签分类识别的新方法。通过不使用候选区域提取方法,从卷积特征图中定位注意区域,并使用 LSTM 子网络对这些区域进行语义标记和全局依赖性的序列预测。试验表明该方法在识别准确率和效率上均优于现有技术。
Nov, 2017
本文提出了一种基于视觉注意力模型的分层视觉架构,包括显著性图和注意机制,用于多标签图像分类。模型支持多集预测,通过强化学习进行训练,支持任意标签排列和一对多预测。实验结果表明,该模型可以实现高精度和高召回率的多标签图像分类和物体定位。
Nov, 2017
本文提出了一种简单而高效的双流框架方法,使用全局图像到局部区域的方法识别多类别目标,并提出了多类关注区域模块(MCAR)来解决关注区域数量过多,生成复杂问题,这种方法仅使用图像语义就可以创建新的最佳结果,并在不同因素下进行了广泛的展示。
Jul, 2020