开放式视觉问答
本教程介绍了一种基于神经网络的方法来回答关于真实世界图像内容的问题,使用 DAQUAR 和 VQA 数据集进行模型演示,并介绍了 Keras 和 Kraino 等深度学习框架,从图像识别方面进行进一步的性能提升。
Oct, 2016
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
本文提出通过建立基于场景信号和问题信息的图结构,应用深度神经网络分析问题的方法来提升视觉问答(VQA)的性能,相比于基于 CNN/LSTM 的 VQA 方法,本方法获得了显著的改善,其准确性从 71.2%提高到 74.4%,在不同的 “平衡” 场景中的准确性则提高了 4.4%。
Sep, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文介绍了一个用于视觉问答(VQA)的最先进模型,这个模型在 2017 年的 VQA 挑战中获得了第一名。通过对超过 3,000 个 GPU 小时的架构和超参数的深入探索,我们发现了许多用于提高性能的 Tips and Tricks。我们详细地分析了它们的影响以协助其他人进行适当的选择。
Aug, 2017
本文提出了一种直接模拟语言和所有可能的本地图像补丁之间的时态动态的端到端方法,使用注意机制将与单词相关的特征和多个本地补丁上可用的特征融合在一起,并将融合的信息进一步结合生成动态信息,最终通过标准问题回答模块和上下文视觉信息和语言信息一起完成问题回答。
Nov, 2015
本研究利用已预训练的最新 VQA 模型和卷积序列到序列网络整合图像特征,作为 VLSP2022-EVJVQA 多语言场景下,视觉问答任务的解决方案,在公共测试集上达到了 F1 分数 0.3442,在私人测试集上达到了 0.4210,排名第三。
Mar, 2023
本研究提出了一种针对图像和问题的视觉问答算法,包含两个主要模块:第一个模块将问题作为输入,输出主要给定问题的基础问题;第二个模块将问题和图像作为输入,输出问题的基于文本的答案。研究将基础问题生成问题视为 LASSO 优化问题,并提出一种标准来利用这些基础问题帮助回答主要问题。经过在具有挑战性的 VQA 数据集上的验证,本研究的方法实现了最先进的准确性,在开放式任务中达到了 60.34%的准确度。
Mar, 2017