本研究提出了一种统一的注意力模型,能够同时捕捉多模态特征的内部和跨模态之间的相互作用,并输出相应的注意力表示。通过堆叠这样的统一注意力块,我们获得了深度多模态统一注意力网络 (MUAN),可以无缝地应用于视觉问答 (VQA) 和视觉定位任务。通过在两个 VQA 数据集和三个视觉定位数据集上评估 MUAN 模型,结果表明 MUAN 在两个任务上都实现了顶级性能。
Aug, 2019
本研究提出了一种基于高斯混合模型的时空注意力模型,并使用人类注视数据进行训练,相比先前的方法,该模型在影片显著性预测方面具有最先进的表现,并在动作分类准确性方面取得了改进。
Mar, 2016
通过利用关注机制的生成学习框架,可以将图像中感兴趣的区域传递给生成建模的标准表征,并集中精力在感兴趣的对象上,从而建立新面孔的生成模型。
Dec, 2013
本篇研究提出了一种基于注意力机制和深度神经网络的视觉问答方法,通过多模态特征嵌入策略,联合关注自由区域和检测框区域,实现更准确的图像问答。在 COCO-QA 和 VQA 数据集上测试,结果表明该方法优于现有方法。
Nov, 2017
本文提出利用注意力机制在卷积特征激活层面上进行细粒度图像识别,相对于传统方法,在不需要部分标注的情况下使用低层次特征进行输出概率分配,并在 CIFAR-10、Adience gender recognition task、Stanford Dogs 和 UEC-Food100 等数据集上取得了最先进的分类精度。
Jul, 2019
本文综述了在计算机视觉中引入的各种注意力机制的方法,着重介绍了通道注意力、空间注意力、时间注意力和分支注意力等方面,并提出了未来注意力机制研究的方向。
Nov, 2021
基于注意力机制的深度神经网络在物体检测任务中的应用
Feb, 2017
本文提出通过构建基于网格结构条件随机场上的多变量分布的视觉注意力模型来有效地编码复杂的跨区域关系,并将迭代推理算法转换成端到端的神经网络层,该模型在 3 个数据集上的实验评估结果表明,它超过了新发布的 CLEVR 数据集的最佳基线模型 9.5%,并超过了 VQA 数据集上最佳发布模型 1.25%。
Aug, 2017
我们介绍了一种新颖的多模式机器翻译模型,利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义,并实现共享的视觉 - 语言嵌入和翻译器的联合优化,取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上,我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。
Aug, 2018
本篇论文提出了关于注意机制的贝叶斯基础,将不同的机器学习注意力架构统一起来,并且提出了与神经科学中的机制相关的桥梁。
Apr, 2023