本文提出一种动态排序正解标签的方法,用于多标签分类任务,以加快更优 LSTM 模型的训练。实验证明,该方法避免了生成重复标签,并超过了其他 CNN-RNN 模型的性能,证明了在挑战性的数据集上使用标准结构的图像编码器和语言解码器采用提出的损失函数可以得到最先进的结果。
Nov, 2019
本文提出了一种利用深度学习技术中的循环记忆 - 关注模块来实现图像多标签分类识别的新方法。通过不使用候选区域提取方法,从卷积特征图中定位注意区域,并使用 LSTM 子网络对这些区域进行语义标记和全局依赖性的序列预测。试验表明该方法在识别准确率和效率上均优于现有技术。
Nov, 2017
本文提出 CA-Conv-BiLSTM 网络,用于航空图像多标签分类。该网络利用三个不可少的部件提取语义特征图,捕获具有可辨别性的类特定特征,并在双向 LSTM 子网络中建模底层类依赖关系,从而产生结构化的多对象标签。实验证明,该模型在 UCM 多标签数据集和 DFC15 多标签数据集上具有定量和定性的有效性。
Jul, 2018
本文提出了一种基于卷积神经网络和循环神经网络的框架,用于多标签图像分类,通过学习图像标签嵌入特征,显式地利用了图像标签之间的关联性,拥有较好的分类性能。
Apr, 2016
本文提出一种基于 soft attention 的模型,用于对视频中的动作进行识别,该模型使用多层循环神经网络 (RNNs) 和长短期记忆 (LSTM) 单元,学习有选择地专注于视频帧的某些部分,通过几个瞥见来对视频进行分类。该模型主要学习帧中哪些部分与目标任务相关,并赋予它们更高的重要性。我们在 UCF-11 (YouTube Action)、HMDB-51 和 Hollywood2 数据集上评估了该模型,并分析了模型在不同场景和不同动作下注意力的聚焦。
Nov, 2015
提出使用基于注意力模型的深度循环神经网络,加上强化学习训练,以识别并定位输入图像中的多个目标。通过在谷歌街景图像中转录房屋编号序列的挑战性任务上的测试,表明该模型精度高于现有最先进的卷积神经网络,且使用的参数和计算量较少。
Dec, 2014
提出一种利用 LSTM 网络同时学习句子级别分类任务和序列标注任务的模型,通过语义相关性对单词进行加权的稀疏注意力机制,该方法在 ATIS 和 TREC 数据集上表现优于基准模型。
Sep, 2017
探索多级上下文循环神经网络的多种上下文提示,将其结合到分级卷积神经网络中,提供丰富的空间和语义信息,并使用注意力模型来有效地合并多个级别,以实现在图像标签方面的最新结果。
Jul, 2016
本研究提出了一种循环注意强化学习框架,通过迭代地发现一系列关注和信息区域,以及进一步预测这些区域中的标签得分,从而实现多标签图像识别。
Dec, 2017
本文探讨使用循环神经网络中 attention 机制解决序列到序列问题的方法,并介绍相关的应用于计算机视觉中的算法并验证其优越性,同时也提出了未来的研究方向。
Jan, 2016