用于视觉问答的高阶注意力模型
通过建立视觉注意力和问题注意力相结合的协作注意力模型,使用新型一维卷积神经网络来在分层结构中处理问题,从而使 VQA 数据集上的性能从 60.3%提高到 60.5%,并且在 COCO-QA 数据集上从 61.6%提高到 63.3%。在加入 ResNet 模型后,VQA 指标进一步提升至 62.1%,COCO-QA 指标达到 65.4%。
May, 2016
本文提出了一种改进的基于注意力机制的架构,其中包括一个对注意力结果和查询进行关系确定的 AoA 模块,并提出了多模态融合模块来组合视觉和文本信息,结果在 VQA-v2 基准数据集上达到了最先进的性能。
Nov, 2020
本文结合注意力机制提出了两种最先进的视觉问答方法,并通过可视化和分析它们的估计注意力图来研究它们的鲁棒性和缺点。研究表明两种方法对特征敏感,同时对于计数和多对象相关的问题表现不佳。该研究结果和分析方法可帮助研究人员识别重要的挑战,以改进自己的 VQA 系统。
Oct, 2018
通过开发十三种新的注意力机制和引入一种简化的分类器,基于首次在 VQA 挑战中获得第一名的模型进行改进,进行了 300 GPU 小时的大量超参数和架构搜索,我们能够实现 64.78%的评估分数,优于现有最先进的单个模型 63.15%的验证分数。
Mar, 2018
本研究主要针对如何将注意力监督应用于基于 Attention 机制的视觉问答任务中,提出人类注意力网络(HAN)来生成类似于人类的注意力图,并将其应用于 VQA v2.0 数据集中。实验结果表明,该方法能够产生更准确的注意力机制和更好的性能。
Sep, 2017
本文提出了一个名为 Question Type-guided Attention (QTA) 的方法,利用问题类型信息动态平衡从 ResNet 和 Faster R-CNN 网络中分别提取的自下而上和自上而下的视觉特征。在 TDIUC 数据集上进行了多项输入实验,并显示 QTA 显著提高了多个问题类型类别的性能,例如 “活动识别”、“效用” 和 “计数”。添加 QTA 后,我们在最先进的 MCB 模型上实现了 3%的总体准确度提高。最后,我们提出了一个多任务扩展以预测问题类型,在缺少问题类型的应用程序中推广 QTA,性能损失最小。
Apr, 2018
该研究通过比较人类和 VQA 模型在回答与驾驶相关的问题时的注意模式,揭示了观察对象方面的差异。我们提出了一种整合过滤器来优化模型的注意机制的方法,优先考虑相关对象并提高准确性。通过将 LXMERT 模型应用于案例研究,我们比较了预训练模型和整合过滤器模型以及来自 NuImages 数据集的人类答案的注意模式,从而深入了解特征优先级的问题。我们使用一个主观评分框架评估了这些模型,结果显示特征编码器过滤器的整合提高了 VQA 模型的性能,优化了其注意机制。
Jun, 2024
该论文探讨使用引导反向传播和遮挡等可视化技术,解释视觉问答(VQA)模型的工作过程,并发现即使没有显式注意机制,VQA 模型有时也会隐含地关注图像中的相关区域和问题中的适当单词。
Aug, 2016