多模态连续视觉注意机制

Apr, 2021

Multimodal Continuous Visual Attention Mechanisms

António Farinhas, André F. T. Martins, Pedro M. Q. Aguiar

TL;DR本文介绍一种新的连续注意力机制，它生成具有高斯混合形式的多模态密度，用于图像区域的聚合。该方法在视觉问题回答中表现出有竞争力的准确性和自动分离复杂场景中物体和地面的能力，并提供比其他方法更可解释的注意力地图。

Abstract

visual attention mechanisms are a key component of neural network models for computer vision. By focusing on a discrete set of objects or image regions, these mechanisms identify the most relevant features and us

visual attention mechanisms neural network models continuous attention mechanism multimodal densities visual question answering

发现论文，激发创造

多模式统一关注网络用于视觉语言交互

本研究提出了一种统一的注意力模型，能够同时捕捉多模态特征的内部和跨模态之间的相互作用，并输出相应的注意力表示。通过堆叠这样的统一注意力块，我们获得了深度多模态统一注意力网络 (MUAN)，可以无缝地应用于视觉问答 (VQA) 和视觉定位任务。通过在两个 VQA 数据集和三个视觉定位数据集上评估 MUAN 模型，结果表明 MUAN 在两个任务上都实现了顶级性能。

Aug, 2019

用于时空视觉注意的循环混合密度网络

本研究提出了一种基于高斯混合模型的时空注意力模型，并使用人类注视数据进行训练，相比先前的方法，该模型在影片显著性预测方面具有最先进的表现，并在动作分类准确性方面取得了改进。

Mar, 2016

学习视觉注意力生成模型

通过利用关注机制的生成学习框架，可以将图像中感兴趣的区域传递给生成建模的标准表征，并集中精力在感兴趣的对象上，从而建立新面孔的生成模型。

Dec, 2013

多模态乘积特征嵌入共同关注自由形式区域和检测用于视觉问答

本篇研究提出了一种基于注意力机制和深度神经网络的视觉问答方法，通过多模态特征嵌入策略，联合关注自由区域和检测框区域，实现更准确的图像问答。在 COCO-QA 和 VQA 数据集上测试，结果表明该方法优于现有方法。

Nov, 2017

关注激活：用于细粒度图像识别的模块化注意机制

本文提出利用注意力机制在卷积特征激活层面上进行细粒度图像识别，相对于传统方法，在不需要部分标注的情况下使用低层次特征进行输出概率分配，并在 CIFAR-10、Adience gender recognition task、Stanford Dogs 和 UEC-Food100 等数据集上取得了最先进的分类精度。

Jul, 2019

计算机视觉中的注意力机制：综述

本文综述了在计算机视觉中引入的各种注意力机制的方法，着重介绍了通道注意力、空间注意力、时间注意力和分支注意力等方面，并提出了未来注意力机制研究的方向。

Nov, 2021

视觉目标检测的注意力网络

基于注意力机制的深度神经网络在物体检测任务中的应用

Feb, 2017

视觉问答的结构型注意力

本文提出通过构建基于网格结构条件随机场上的多变量分布的视觉注意力模型来有效地编码复杂的跨区域关系，并将迭代推理算法转换成端到端的神经网络层，该模型在 3 个数据集上的实验评估结果表明，它超过了新发布的 CLEVR 数据集的最佳基线模型 9.5％，并超过了 VQA 数据集上最佳发布模型 1.25％。

Aug, 2017

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

边际概率就足够了吗？

本篇论文提出了关于注意机制的贝叶斯基础，将不同的机器学习注意力架构统一起来，并且提出了与神经科学中的机制相关的桥梁。

Apr, 2023