本研究探讨了使用生成对抗网络(GANs)、自编码器和注意力机制改进视觉问答(VQA)的创新方法。研究发现,通过利用一个平衡的 VQA 数据集,GAN-based 方法提供了生成与图像和问题相关的答案嵌入的潜力,但在处理较复杂的任务时存在困难。相比之下,基于自编码器的技术专注于学习问题和图像的最佳嵌入,由于在处理复杂问题上能力更强,其结果与 GAN-based 方法相媲美。最后,注意力机制结合多模态紧凑双线性池化(MCB)来解决语言先验和注意力建模问题,但在复杂性和性能之间需要权衡。本研究强调了 VQA 领域的挑战和机遇,并提出了未来研究的方向,包括替代 GAN 的形式和注意力机制。
Apr, 2024
本文提出了一种元学习的方法来解决图像问题回答(VQA)问题,并采用了原型网络和元网络两种技术,通过给定的例子来推理解决给定的问题,与现有技术相比,该方法能够产生具有更高罕见回答的召回率和更好的样本效率,是学习和推理基于视觉和语言的方法的重要一步。
Nov, 2017
为了应对在 Open-world 情境下出现的语言和视觉上未知概念对 Visual Question Answering 系统的影响,我们提出了一种基于示例的方法,用于从先前的已知概念中转移学习,以回答有关未知概念的问题,此外,我们提出了一种高效的匹配方案,以有效处理大规模基准数据集中的高维示例信息。
Nov, 2018
提出了 VQA-E 任务,要求计算机模型在预测答案的同时生成一个解释。通过多任务学习框架, VQA-E 数据集从 VQA v2 数据集自动导出,用户研究表明,我们的方法可以生成有洞察力的文本句子来证明答案,并提高了答案预测的性能。
Mar, 2018
该研究引入了一个新的视觉问答任务,即识别对原问题产生不同回答的图像,并通过这一任务来评估现有的 VQA 模型。尽管作者的模型在这一任务上表现出色,但研究结果表明,现有的最先进 VQA 模型所学习的多模态表示对于这一任务的表现并没有显著贡献,这表明在 VQA 基准测试上表现良好并不意味着具备更广泛的视觉语义推理能力。
Jun, 2018
通过提供来自知识图谱中提取的相关外部知识,我们通过增强问题并实现可变数量的三元组,为知识增强的视觉问答模型带来了平均 4.75%的准确匹配得分提升,并展示了其在推理能力和泛化能力方面的优势。
Jun, 2024
该论文提出了一种在视觉问答任务中使用通感推理的方法,该方法可以通过显式推理层来解决一些需要额外知识的问题,并提供可解释性的界面。该推理层采用了基于概率的软逻辑引擎,并运用了一篮子输入来进行推理。实验证实了该方法的有效性。
本文提出了一种新颖的方法,开发了一个高性能的 VQA 系统,能够通过集成的文本和视觉解释阐述其答案,并捕捉到深度神经网络推理的重要方面,从而比竞争方法具有更好的自动化和人类评估指标。
Sep, 2018
本文提出了一种改进的基于注意力机制的架构,其中包括一个对注意力结果和查询进行关系确定的 AoA 模块,并提出了多模态融合模块来组合视觉和文本信息,结果在 VQA-v2 基准数据集上达到了最先进的性能。
Nov, 2020
该研究提出了一种基于最先进的 VQA 框架的端到端解释生成模块,通过引入 LSTM 和 Transformer 解码器,生成人类可读的文本解释,同时保持 SOTA VQA 精度。
Nov, 2022