将图像特征与卷积序列到序列网络相结合，用于多语言视觉问答

Mar, 2023

将图像特征与卷积序列到序列网络相结合，用于多语言视觉问答

Integrating Image Features with Convolutional Sequence-to-sequence Network for Multilingual Visual Question Answering

Triet Minh Thai, Son T. Luu

TL;DR本研究利用已预训练的最新VQA模型和卷积序列到序列网络整合图像特征，作为VLSP2022-EVJVQA多语言场景下，视觉问答任务的解决方案，在公共测试集上达到了F1分数0.3442，在私人测试集上达到了0.4210，排名第三。

Abstract

visual question answering (VQA) is a task that requires computers to give correct answers for the input questions based on the images. This task can be solved by humans with ease but is a challenge for computers. The vl

发现论文，激发创造

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

视觉问答：数据集、算法和未来挑战

本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答（VQA）的研究，包括问题定义、数据集、算法和评估指标，并深入探讨了当前数据集在训练和评估VQA算法方面的局限性，全面回顾了现有的VQA算法，最后讨论了VQA和图像理解研究的可能未来方向。

Oct, 2016

视觉问答调查：数据集与技术

该文综述了近年来关于视觉问答的各种数据集和模型，分别从数据集和模型两个方面进行了比较和总结，并提出了未来研究的方向。

May, 2017

使用深度学习的视觉问答: 调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

MaXM：面向多语言视觉问答的模型

本文提出了可伸缩的解决方案，涉及多语言视觉问答（mVQA）的数据生成和建模，最终在13种语言中展现出强大性能，同时也创造了MaXM（一个在7种不同语言下的纯测试数据集），从而使得mVQA不仅限于英语，而是扩展到其他语言中。

Sep, 2022

VLSP2022-EVJVQA挑战: 多语言视觉问答

本文提出了一个基于越南图片的多语言视觉问答基准数据集EVJVQA，用于评估多语言VQA系统或模型，并详细介绍了9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022)的组织、方法和结果，其中前两个团队使用ViT预训练模型和mT5预训练语言模型实现多语言QA系统。

Feb, 2023

OpenViVQA: 越南语视觉问题回答任务、数据集和多模态融合模型

本文介绍了OpenViVQA：首个包含越南语开放式答案的大规模VQA数据集，包括11,000+图像和37,000+ 问答对，并提出了三个融合图像和答案信息的方法（FST，QuMLAG和MLPAG），并使用这些融合的特征构建答案，旨在促进研究社区针对越南语这类低资源语言开发出更广义的算法，结果与SOTA模型竞争力相当。

May, 2023

语言引导的视觉问答：使用知识丰富的提示提升多模态语言模型

对于图像中的问题，通过使用语言指导（LG）如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确；提出了一种多模态框架，使用CLIP和BLIP模型通过A-OKVQA、Science-QA、VSR和IconQA数据集的多选问题回答任务进行了基准测试，语言指导使得CLIP的性能提高了7.6%，BLIP-2的性能提高了4.8%；使用所提出的语言指导在Science-QA、VSR和IconQA数据集上也观察到了持续的性能改进。

Oct, 2023

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023

通过变换器和卷积集成推进越南视觉问答研究

本研究针对越南视觉问答系统的缺乏问题，通过在越南视觉问答(ViVQA)数据集上进行全面实验，提出了一种新的模型。该模型结合了语言-图像预训练与卷积神经网络，有效提升了图像表示能力，显著提高了VQA系统的整体性能，并在ViVQA测试集上实现了71.04%的准确率，标志着这一领域的重要进展。

Jul, 2024