将图像特征与卷积序列到序列网络相结合,用于多语言视觉问答
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答(VQA)的研究,包括问题定义、数据集、算法和评估指标,并深入探讨了当前数据集在训练和评估VQA算法方面的局限性,全面回顾了现有的VQA算法,最后讨论了VQA和图像理解研究的可能未来方向。
Oct, 2016
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
本文提出了可伸缩的解决方案,涉及多语言视觉问答(mVQA)的数据生成和建模,最终在13种语言中展现出强大性能,同时也创造了MaXM(一个在7种不同语言下的纯测试数据集),从而使得mVQA不仅限于英语,而是扩展到其他语言中。
Sep, 2022
本文提出了一个基于越南图片的多语言视觉问答基准数据集EVJVQA,用于评估多语言VQA系统或模型,并详细介绍了9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022)的组织、方法和结果,其中前两个团队使用ViT预训练模型和mT5预训练语言模型实现多语言QA系统。
Feb, 2023
本文介绍了OpenViVQA:首个包含越南语开放式答案的大规模VQA数据集,包括11,000+图像和37,000+ 问答对,并提出了三个融合图像和答案信息的方法(FST,QuMLAG和MLPAG),并使用这些融合的特征构建答案,旨在促进研究社区针对越南语这类低资源语言开发出更广义的算法,结果与SOTA模型竞争力相当。
May, 2023
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用CLIP和BLIP模型通过A-OKVQA、Science-QA、VSR和IconQA数据集的多选问题回答任务进行了基准测试,语言指导使得CLIP的性能提高了7.6%,BLIP-2的性能提高了4.8%;使用所提出的语言指导在Science-QA、VSR和IconQA数据集上也观察到了持续的性能改进。
Oct, 2023
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023
本研究针对越南视觉问答系统的缺乏问题,通过在越南视觉问答(ViVQA)数据集上进行全面实验,提出了一种新的模型。该模型结合了语言-图像预训练与卷积神经网络,有效提升了图像表示能力,显著提高了VQA系统的整体性能,并在ViVQA测试集上实现了71.04%的准确率,标志着这一领域的重要进展。
Jul, 2024