视觉语言问答 (VLQA) 挑战赛
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
本研究提出了一种基于机器阅读理解的方法,通过将视觉和文本特征统一到自然语言中以解决视觉问答中的多模态特征融合问题,并能够处理大规模外部知识库等基于知识的问题。实验结果表明,该方法在三个数据集上性能具有可比性,此为利用文本和自然语言处理技术解决视觉问答问题的一步。
Nov, 2018
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
通过调查 Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对 VQA 数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将 VQA 推广到多模态问答,探索与 VQA 相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023
本文提出了一个基于越南图片的多语言视觉问答基准数据集 EVJVQA,用于评估多语言 VQA 系统或模型,并详细介绍了 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022) 的组织、方法和结果,其中前两个团队使用 ViT 预训练模型和 mT5 预训练语言模型实现多语言 QA 系统。
Feb, 2023
本论文中,我们提出了 WebQA,它引入了一个具有挑战性的新测量标准,该标准涉及大规模最先进模型的困难之处,缺乏新颖对象的语言基础视觉表达和推理能力,但对人类来说却很简单。我们的社区挑战是创建统一的多模态推理模型,这些模型可以回答问题,而不考虑源模态,从而使我们更接近不仅查询语言知识,而且查询更丰富的视觉在线世界的数字助手。
Sep, 2021
本研究利用已预训练的最新 VQA 模型和卷积序列到序列网络整合图像特征,作为 VLSP2022-EVJVQA 多语言场景下,视觉问答任务的解决方案,在公共测试集上达到了 F1 分数 0.3442,在私人测试集上达到了 0.4210,排名第三。
Mar, 2023
本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答(VQA)的研究,包括问题定义、数据集、算法和评估指标,并深入探讨了当前数据集在训练和评估 VQA 算法方面的局限性,全面回顾了现有的 VQA 算法,最后讨论了 VQA 和图像理解研究的可能未来方向。
Oct, 2016