基于自下而上和自上而下的注意力机制用于图像字幕生成与视觉问答

CVPRJul, 2017

基于自下而上和自上而下的注意力机制用于图像字幕生成与视觉问答

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson...

TL;DR本篇研究提出一种混合自下而上和自上而下视觉关注机制，能在对象和其他显著图像区域的水平上计算注意力权重，实现更深入图像理解，将其应用于图像字幕生成和视觉问答任务中，取得了优于现有技术的成绩。

Abstract

Top-down visual attention mechanisms have been used extensively in image captioning and visual question answering (VQA) to enable deeper image understanding through fine-grained analysis and even multiple steps o

visual attention bottom-up attention top-down attention image captioning visual question answering

发现论文，激发创造

视觉问答的互注意融合

该研究提出了一种新的注意力机制，同时考虑视觉细节的两个层次，即物体实例和它们的部分，通过高效的张量分解方案，设计了分层融合多模态信息的模型并提高了已有模型达到了一个显著的提升。

May, 2018

强化注意力：利用人类的注意力进行图像字幕生成

使用两种类型的注意力机制：从上至下的语言传达信息和自底向上的视觉信号，通过提出 Boosted Attention 模型实现将它们整合在图像字幕生成任务中，从而提高了效果。

Mar, 2019

语义关注下的图像字幕生成

本文提出了一种融合上下文语境的自动图像描述算法，通过自下而上的计算和语义关注的上下文交互作用，成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。

Mar, 2016

视觉问答的层次化问题 - 图像协同注意力

通过建立视觉注意力和问题注意力相结合的协作注意力模型，使用新型一维卷积神经网络来在分层结构中处理问题，从而使 VQA 数据集上的性能从 60.3％提高到 60.5％，并且在 COCO-QA 数据集上从 61.6％提高到 63.3％。在加入 ResNet 模型后，VQA 指标进一步提升至 62.1%，COCO-QA 指标达到 65.4%。

May, 2016

基于主题引导的图像描述注意力模型

本文提出了一种新的注意力机制，称为主题引导注意力，在图像字幕生成中应用，通过将图像主题整合到注意力模型中作为指导信息，协助选择最重要的图像特征。在微软 COCO 数据集上的实验结果表明，该方法在各种定量指标上具有最先进的性能。

Jul, 2018

视觉问答中的问题类型引导注意力机制

本文提出了一个名为 Question Type-guided Attention (QTA) 的方法，利用问题类型信息动态平衡从 ResNet 和 Faster R-CNN 网络中分别提取的自下而上和自上而下的视觉特征。在 TDIUC 数据集上进行了多项输入实验，并显示 QTA 显著提高了多个问题类型类别的性能，例如 “活动识别”、“效用” 和 “计数”。添加 QTA 后，我们在最先进的 MCB 模型上实现了 3％的总体准确度提高。最后，我们提出了一个多任务扩展以预测问题类型，在缺少问题类型的应用程序中推广 QTA，性能损失最小。

Apr, 2018

为视觉问答辩护的网格特征

本文探讨了基于 Bounding Box/Region 的 Bottom-up attention 方法是否是解决 Vision and Language 任务（如视觉问答（VQA））成功的关键因素，结果发现与 grid features 方法相比，前者的优势并非是最重要的。同时，grid features 方法设计和训练更加简单，使用更加灵活，并且能够进行端到端训练，不需要 region 标注，实现了直接从像素到答案的学习。

Jan, 2020

基于标题引导的自上而下视觉显著性

本文提出了基于标题引导的视觉显著性方法，通过训练数据隐式的学习到现代编码器解码器网络中的区域到单词的映射，而不引入显式的注意力层，从而分析各种现有模型结构，并提供更准确的显著性热图。

Dec, 2016

基于注意力模型的视觉问答算法分析

本文批判性地审查和回顾了视觉问答算法的方法，例如文本语义的生成、物体的识别和采用共同关注的答案分类技术。

May, 2023

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016