视觉问答的组合记忆
本文研究了基于深度学习模型的视觉问答模型,发现现有模型的准确率在60-70%之间,且本文提出系统分析这些模型行为的方法,发现这些模型存在缺点,包括不够全面、容易得出错误答案和不易更正的问题。
Jun, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文提出通过建立基于场景信号和问题信息的图结构,应用深度神经网络分析问题的方法来提升视觉问答(VQA)的性能,相比于基于CNN/LSTM的VQA方法,本方法获得了显著的改善,其准确性从71.2%提高到74.4%,在不同的“平衡”场景中的准确性则提高了4.4%。
Sep, 2016
该研究通过收集相关的图像,用于构建一个平衡的数据集(VQA v2.0),并在此基础上比较现有的 VQA 模型的表现,发现这些模型都受到了语言先验的影响。此外,该研究还提出了一种可解释性模型,它不仅可以回答问题,而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。
Dec, 2016
本文提出了三个特别设计用于视频VQA的新任务,推出一个新的大型数据集TGIF-QA,并提出了一种利用空间和时间关注的双LSTM方法,证明其在经验评估中的有效性。
Apr, 2017
本文介绍了一个新的视觉问答问题设置,称为组合VQA(Compositional VQA)。为了便于在此设置下开发模型,我们提出了一个新的VQA数据集的组合拆分。最后,我们在这个新设置下评估了几个现有的VQA模型,并显示这些模型的性能比原始VQA设置下降了显著的量。
Apr, 2017
本文提出了一种基于动态记忆网络和外部知识库的VQA算法,通过对外部知识的检索和动态记忆网络对知识和图像的关注与推理,有效地回答包括开放领域问题在内的更复杂问题,并在视觉问答任务中取得了最好的表现。
Dec, 2017
本研究探讨了一种新的方法来创建先进的视觉问答(VQA)模型,可以在时间泛化上产生成功的结果。通过利用来自VQAv2和MS-COCO数据集的图像和标题,通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的VQA模型的组合。该研究的目的是调查几个成功的VQA模型的稳健性,评估它们对未来数据分布的性能。分析模型架构,识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性,这些数据可以增强VQA模型的稳健性,使其未来的同行能够更好地适应时间分布的变化。
Jul, 2023
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023