深度注意力结构化表示学习用于视觉识别

May, 2018

深度注意力结构化表示学习用于视觉识别

Deep Attentional Structured Representation Learning for Visual Recognition

Krishna Kanth Nakka, Mathieu Salzmann

TL;DR本文介绍了一个关注机制的结构化表示学习框架，可以预测图像类别标签和注意力映射，并在没有其他监督的情况下以端到端的方式进行学习，改进了性能，并在标准场景识别和细粒度分类基准测试中取得了最新成果。

Abstract

structured representations, such as Bags of Words, VLAD and Fisher Vectors, have proven highly effective to tackle complex visual recognition tasks. As such, they have recently been incorporated into deep architectures. However, while effective, the resulting deep structured representa

structured representations deep learning attention mechanism image classification performance improvement

发现论文，激发创造

视觉问答的结构型注意力

本文提出通过构建基于网格结构条件随机场上的多变量分布的视觉注意力模型来有效地编码复杂的跨区域关系，并将迭代推理算法转换成端到端的神经网络层，该模型在 3 个数据集上的实验评估结果表明，它超过了新发布的 CLEVR 数据集的最佳基线模型 9.5％，并超过了 VQA 数据集上最佳发布模型 1.25％。

Aug, 2017

结构化注意力网络

本文研究了如何将更丰富的结构分布用于深度神经网络中的嵌入式分类推理，通过两种不同的结构注意力网络：线性链条件随机场和基于图形的解析模型的实验，展示了这些结构的注意力网络超过了基线的注意力模型在各种合成和真实任务中的表现。

Feb, 2017

基于循环发现注意力区域的多标签图像识别

本文提出了一种利用深度学习技术中的循环记忆 - 关注模块来实现图像多标签分类识别的新方法。通过不使用候选区域提取方法，从卷积特征图中定位注意区域，并使用 LSTM 子网络对这些区域进行语义标记和全局依赖性的序列预测。试验表明该方法在识别准确率和效率上均优于现有技术。

Nov, 2017

基于语义增强的注意力学习用于视觉地点识别

本文提出了一种基于语义增强的注意力学习网络方法，该方法利用本地加权方案和语义先验信息提高视觉地点识别（VPR）任务的表现，并在城市级别的 VPR 基准数据集上实现了优越性能。

Aug, 2021

非监督对话结构归纳的结构化注意力

本论文通过在变分循环神经网络模型中引入结构化注意力层，以无监督学习的方式学习对话结构，并对多方对话数据集进行了实验，展示了模型区分发言人或地址、自动脱钩对话的能力。

Sep, 2020

深度强化注意力学习用于品质感知视觉识别

通过在任何卷积神经网络的弱监督生成中间注意力图的机制上进行改进，揭示了注意力模块的有效性，提出了一种元质疑网络，并结合强化学习的方法进行优化，从而提高了注意力模块的表达能力，并在分类和实例识别基准测试上进行了广泛的实验验证。

Jul, 2020

场景文本识别的视觉注意力模型

本文提出了一种无词典的场景图像文本识别方法，该方法基于一种基于 LSTM 的软视觉注意模型，该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量，实现了对空间信息的编码，从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外，我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果，以标准的 SVT 和 ICDAR'03 场景文本数据集为基础，证明了我们方法在无约束文本识别中的卓越表现。

Jun, 2017

基于循环注意力增强学习的多标签图像识别

本研究提出了一种循环注意强化学习框架，通过迭代地发现一系列关注和信息区域，以及进一步预测这些区域中的标签得分，从而实现多标签图像识别。

Dec, 2017

多层结构化自注意力用于远程监督关系抽取

提出了一种新颖的基于多层结构化自我关注机制的深度神经网络，在多实例学习框架下，利用双向循环神经网络进行远程监督关系抽取，该模型显著优于现有基线模型。

Sep, 2018

视觉注意力下的多对象识别

提出使用基于注意力模型的深度循环神经网络，加上强化学习训练，以识别并定位输入图像中的多个目标。通过在谷歌街景图像中转录房屋编号序列的挑战性任务上的测试，表明该模型精度高于现有最先进的卷积神经网络，且使用的参数和计算量较少。

Dec, 2014