视觉注意力下的多对象识别
本文提出了一种简单而高效的双流框架方法,使用全局图像到局部区域的方法识别多类别目标,并提出了多类关注区域模块(MCAR)来解决关注区域数量过多,生成复杂问题,这种方法仅使用图像语义就可以创建新的最佳结果,并在不同因素下进行了广泛的展示。
Jul, 2020
本文提出了一种利用深度学习技术中的循环记忆 - 关注模块来实现图像多标签分类识别的新方法。通过不使用候选区域提取方法,从卷积特征图中定位注意区域,并使用 LSTM 子网络对这些区域进行语义标记和全局依赖性的序列预测。试验表明该方法在识别准确率和效率上均优于现有技术。
Nov, 2017
本文提出一种基于 soft attention 的模型,用于对视频中的动作进行识别,该模型使用多层循环神经网络 (RNNs) 和长短期记忆 (LSTM) 单元,学习有选择地专注于视频帧的某些部分,通过几个瞥见来对视频进行分类。该模型主要学习帧中哪些部分与目标任务相关,并赋予它们更高的重要性。我们在 UCF-11 (YouTube Action)、HMDB-51 和 Hollywood2 数据集上评估了该模型,并分析了模型在不同场景和不同动作下注意力的聚焦。
Nov, 2015
该研究提出了一种基于显著性启发的神经网络模型,可以有效地在图像中检测出包含任何感兴趣的对象的一组类不可知的边界框,而不需要针对每个实例复制输出,并在 VOC2007 和 ILSVRC2012 上获得了具有竞争力的识别性能。
Dec, 2013
本文提出一种多注意力机制的模型来解决视频理解中的时间定位问题,模型结合了多个注意力网络、深度帧模型、循环神经网络和卷积神经网络,并基于多实例多标签学习和 attention 权重来加强对视频中重要帧的关注,从而在 YouTube-8M Video Understanding Challenge 中取得了较好的成绩。
Nov, 2019
提出了一种用于在场景中定位目标物体的主动检测模型,该模型是类特定的,并允许代理集中注意力于识别目标物体的候选区域,通过深度强化学习训练定位代理,并在 Pascal VOC 2007 数据集上评估,结果表明,使用该模型指导的代理能够在分析图像中仅仅探测 11 到 25 个区域后定位一个物体实例,并且在不使用物体提议进行物体定位的系统中取得了最佳的检测结果。
Nov, 2015