深度例子网络用于 VQA 和 VQG

CVPRDec, 2019

Deep Exemplar Networks for VQA and VQG

Badri N. Patro, Vinay P. Namboodiri

TL;DR本文探讨了如何将示例方法融入 Visual Question Answering 和 Visual Question Generation 问题的深度学习架构中，通过大量实证研究发现，融入示例方法可以显著提高这些任务的性能。

Abstract

In this paper, we consider the problem of solving semantic tasks such as `visual question answering' (VQA), where one aims to answers related to an image and `visual question generation' (VQG), where one aims to

visual question answering visual question generation encoder-decoder exemplar based approaches deep learning

发现论文，激发创造

探索多种方法在视觉问答中的应用

本研究探讨了使用生成对抗网络（GANs）、自编码器和注意力机制改进视觉问答（VQA）的创新方法。研究发现，通过利用一个平衡的 VQA 数据集，GAN-based 方法提供了生成与图像和问题相关的答案嵌入的潜力，但在处理较复杂的任务时存在困难。相比之下，基于自编码器的技术专注于学习问题和图像的最佳嵌入，由于在处理复杂问题上能力更强，其结果与 GAN-based 方法相媲美。最后，注意力机制结合多模态紧凑双线性池化（MCB）来解决语言先验和注意力建模问题，但在复杂性和性能之间需要权衡。本研究强调了 VQA 领域的挑战和机遇，并提出了未来研究的方向，包括替代 GAN 的形式和注意力机制。

Apr, 2024

将视觉问答作为元学习任务

本文提出了一种元学习的方法来解决图像问题回答（VQA）问题，并采用了原型网络和元网络两种技术，通过给定的例子来推理解决给定的问题，与现有技术相比，该方法能够产生具有更高罕见回答的召回率和更好的样本效率，是学习和推理基于视觉和语言的方法的重要一步。

Nov, 2017

从已知到未知：迁移知识以回答关于新视觉和语义概念的问题

为了应对在 Open-world 情境下出现的语言和视觉上未知概念对 Visual Question Answering 系统的影响，我们提出了一种基于示例的方法，用于从先前的已知概念中转移学习，以回答有关未知概念的问题，此外，我们提出了一种高效的匹配方案，以有效处理大规模基准数据集中的高维示例信息。

Nov, 2018

VQA-E：为视觉问题解答进行解释、阐释和增强

提出了 VQA-E 任务，要求计算机模型在预测答案的同时生成一个解释。通过多任务学习框架， VQA-E 数据集从 VQA v2 数据集自动导出，用户研究表明，我们的方法可以生成有洞察力的文本句子来证明答案，并提高了答案预测的性能。

Mar, 2018

在视觉问答中识别反例

该研究引入了一个新的视觉问答任务，即识别对原问题产生不同回答的图像，并通过这一任务来评估现有的 VQA 模型。尽管作者的模型在这一任务上表现出色，但研究结果表明，现有的最先进 VQA 模型所学习的多模态表示对于这一任务的表现并没有显著贡献，这表明在 VQA 基准测试上表现良好并不意味着具备更广泛的视觉语义推理能力。

Jun, 2018

精确赋能，过度分散：动态注入语言模型中的视觉问答知识

通过提供来自知识图谱中提取的相关外部知识，我们通过增强问题并实现可变数量的三元组，为知识增强的视觉问答模型带来了平均 4.75％的准确匹配得分提升，并展示了其在推理能力和泛化能力方面的优势。

Jun, 2024

基于端到端神经网络架构的视觉问答显式推理

该论文提出了一种在视觉问答任务中使用通感推理的方法，该方法可以通过显式推理层来解决一些需要额外知识的问题，并提供可解释性的界面。该推理层采用了基于概率的软逻辑引擎，并运用了一篮子输入来进行推理。实验证实了该方法的有效性。

Mar, 2018

视觉问题回答的忠实多模态解释

本文提出了一种新颖的方法，开发了一个高性能的 VQA 系统，能够通过集成的文本和视觉解释阐述其答案，并捕捉到深度神经网络推理的重要方面，从而比竞争方法具有更好的自动化和人类评估指标。

Sep, 2018

改进的视觉问答注意力机制

本文提出了一种改进的基于注意力机制的架构，其中包括一个对注意力结果和查询进行关系确定的 AoA 模块，并提出了多模态融合模块来组合视觉和文本信息，结果在 VQA-v2 基准数据集上达到了最先进的性能。

Nov, 2020

面向推理感知的可解释视觉问答

该研究提出了一种基于最先进的 VQA 框架的端到端解释生成模块，通过引入 LSTM 和 Transformer 解码器，生成人类可读的文本解释，同时保持 SOTA VQA 精度。

Nov, 2022