视觉问答中的物体属性重要性

AAAIDec, 2023

Object Attribute Matters in Visual Question Answering

Peize Li, Qingyi Si, Peng Fu, Zheng Lin, Yan Wang

TL;DR提出了一种基于物体属性利用的视觉问答方法，旨在实现更好的物体级视觉 - 语言对齐和多模态场景理解。通过属性融合模块和对比知识蒸馏模块，构建多模态图神经网络，融合属性和视觉特征，改善细粒度问题的解决和多模态场景的理解，从而提高模型的鲁棒性。通过对六个数据集的密集实验，COCO-QA、VQAv2、VQA-CPv2、VQA-CPv1、VQAvs 和 TDIUC，验证了该方法的优越性。

Abstract

visual question answering is a multimodal task that requires the joint comprehension of visual and textual information. However, integrating visual and textual semantics solely through attention layers is insuffi

visual question answering multimodal task object attributes visual-language alignment scene understanding

发现论文，激发创造

R-VQA: 通过语义关注学习视觉关系事实用于视觉问答

通过构建 Relation-VQA 数据集，并采用新颖的多步注意力模型，该论文提出了一种更好地利用图像语义知识的视觉关系事实学习框架，从而在视觉问答任务中取得了最先进的性能。

May, 2018

改进的视觉问答注意力机制

本文提出了一种改进的基于注意力机制的架构，其中包括一个对注意力结果和查询进行关系确定的 AoA 模块，并提出了多模态融合模块来组合视觉和文本信息，结果在 VQA-v2 基准数据集上达到了最先进的性能。

Nov, 2020

通过相关问题和图像属性在视觉问答中进行知识检测

本文提出的方法使用图像属性和问题特征来派生知识，在只提取与问题相关的图像对象知识的同时，提供准确的答案。

Jun, 2023

视觉问答的互注意融合

该研究提出了一种新的注意力机制，同时考虑视觉细节的两个层次，即物体实例和它们的部分，通过高效的张量分解方案，设计了分层融合多模态信息的模型并提高了已有模型达到了一个显著的提升。

May, 2018

Tell-and-Answer: 基于属性和字幕的可解释视觉问答

本研究提出将端到端的 VQA 分解为解释和推理两步，使用预训练的属性检测器和图像字幕模型提取图像属性和生成图像描述，然后使用推理模块将这些解释代替图像推断问题的答案。通过对热门 VQA 数据集进行实验，我们证明了该系统具备解释性和进一步提高解释质量的内在能力。

Jan, 2018

通过密集对称共同注意力改进视觉与语言表示的融合用于视觉问答

本文提出了一种基于多步交互和注意力机制的简单且完全对称的网络结构方案，用于解决视觉问答中视觉和语言特征的融合问题，并取得了新的最优结果，而提出的注意力机制也能够生成合理的注意力图从而正确预测答案。

Apr, 2018

视觉问答作为阅读理解

本研究提出了一种基于机器阅读理解的方法，通过将视觉和文本特征统一到自然语言中以解决视觉问答中的多模态特征融合问题，并能够处理大规模外部知识库等基于知识的问题。实验结果表明，该方法在三个数据集上性能具有可比性，此为利用文本和自然语言处理技术解决视觉问答问题的一步。

Nov, 2018

通过属性增强的注意力网络学习进行视频问答

本文研究了如何利用带有特征增强的关注网络学习框架，旨在建立一个能够模拟视频内容的时间动态、实现统一视频表示学习的框架，同时在已构建的大型视频问答数据集上验证其性能，结果表明新模型在选择和开放问题任务上具有有效性。

Jul, 2017

面向对象感知的自适应正性学习用于音频 - 视觉问答

基于音频 - 视觉问题回答任务（AVQA），本文提出了一种针对细粒度视觉对象的端到端对象导向网络，通过特征交互和模型优化来探索多模态关系，并在模型优化方面提出了一种对象感知自适应正性学习策略，以选择高度语义匹配的多模态对作为正性。通过对 MUSIC-AVQA 数据集进行的大量实验证明，该方法能够有效地找到有利的音频 - 视觉线索，并取得了新的最先进的问题回答性能。

Dec, 2023

视觉问答的动态融合与内部和外部模态注意流动

提出了动态融合多模态特征的方法，在视觉和语言模式之间和内部模型之间传递动态信息，从而捕捉语言和视觉领域之间的高级交互作用，显著提高视觉问题回答的效率，同时还提出了关于多模态特征融合的联合训练方法，并使用 VQA 2.0 数据集进行了实验验证，取得了最佳表现。

Dec, 2018