通过归因驱动的洞见探索 VQA 模型的弱点
该论文探讨使用引导反向传播和遮挡等可视化技术,解释视觉问答(VQA)模型的工作过程,并发现即使没有显式注意机制,VQA 模型有时也会隐含地关注图像中的相关区域和问题中的适当单词。
Aug, 2016
本文通过对深度学习模型的问答能力进行分析,引入了词汇重要性的概念,并借此来对问题进行扰动,从而建立对模型的评估及攻击。该方法可通过突出模型在正确率、逻辑、数据等方面的不足,提高模型的推理及总体性能表现。
May, 2018
本文介绍了一个用于视觉问答(VQA)的最先进模型,这个模型在 2017 年的 VQA 挑战中获得了第一名。通过对超过 3,000 个 GPU 小时的架构和超参数的深入探索,我们发现了许多用于提高性能的 Tips and Tricks。我们详细地分析了它们的影响以协助其他人进行适当的选择。
Aug, 2017
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
本文研究了基于深度学习模型的视觉问答模型,发现现有模型的准确率在 60-70%之间,且本文提出系统分析这些模型行为的方法,发现这些模型存在缺点,包括不够全面、容易得出错误答案和不易更正的问题。
Jun, 2016
本文提出了一种新颖的方法,开发了一个高性能的 VQA 系统,能够通过集成的文本和视觉解释阐述其答案,并捕捉到深度神经网络推理的重要方面,从而比竞争方法具有更好的自动化和人类评估指标。
Sep, 2018
通过 Adversarial VQA 测试,发现基于现有的 Visual Question Answering 模型的表现还有很大的提升空间,提出了未来研究方向,并希望 Adversarial VQA 测试能帮助推动 VQA 领域的进步和发展。
Jun, 2021
本研究探讨了使用生成对抗网络(GANs)、自编码器和注意力机制改进视觉问答(VQA)的创新方法。研究发现,通过利用一个平衡的 VQA 数据集,GAN-based 方法提供了生成与图像和问题相关的答案嵌入的潜力,但在处理较复杂的任务时存在困难。相比之下,基于自编码器的技术专注于学习问题和图像的最佳嵌入,由于在处理复杂问题上能力更强,其结果与 GAN-based 方法相媲美。最后,注意力机制结合多模态紧凑双线性池化(MCB)来解决语言先验和注意力建模问题,但在复杂性和性能之间需要权衡。本研究强调了 VQA 领域的挑战和机遇,并提出了未来研究的方向,包括替代 GAN 的形式和注意力机制。
Apr, 2024
该论文训练了一个视觉问答系统,使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统,该数据集使用模板自动生成,模型的最高准确性超过了人类专家水平。
Aug, 2022