视觉语言问答 (VLQA) 挑战赛

EMNLPMay, 2020

Visuo-Linguistic Question Answering (VLQA) Challenge

Shailaja Keyur Sampat, Yezhou Yang, Chitta Baral

TL;DR新方法和基础性性能的比较与现有机器学习方法中挑战的问题进行了讨论，最终提出了 Visuo-Linguistic Question Answering 作为计算机视觉和自然语言处理的基准测试集。

Abstract

Understanding images and text together is an important aspect of cognition and building advanced Artificial Intelligence (AI) systems. As a community, we have achieved good benchmarks over language and vision domains separately, however joint reasoning is still a challenge for state-of-the-art computer vision and →

computer vision natural language processing visuo-linguistic question answering modular method benchmark

发现论文，激发创造

使用深度学习的视觉问答：调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

视觉问答作为阅读理解

本研究提出了一种基于机器阅读理解的方法，通过将视觉和文本特征统一到自然语言中以解决视觉问答中的多模态特征融合问题，并能够处理大规模外部知识库等基于知识的问题。实验结果表明，该方法在三个数据集上性能具有可比性，此为利用文本和自然语言处理技术解决视觉问答问题的一步。

Nov, 2018

视觉问答：方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查 Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对 VQA 数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将 VQA 推广到多模态问答，探索与 VQA 相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023

VLSP2022-EVJVQA 挑战：多语言视觉问答

本文提出了一个基于越南图片的多语言视觉问答基准数据集 EVJVQA，用于评估多语言 VQA 系统或模型，并详细介绍了 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022) 的组织、方法和结果，其中前两个团队使用 ViT 预训练模型和 mT5 预训练语言模型实现多语言 QA 系统。

Feb, 2023

视觉问答最近进展综述

该论文综述了不同方法来解决视觉问答的问题，特别是描述了各种算法提取图像特征和文本特征的方法，并讨论了评估 VQA 模型的实验，并报告了它们在各种数据集上的表现。

Sep, 2017

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

WebQA：多跳和多模态 QA

本论文中，我们提出了 WebQA，它引入了一个具有挑战性的新测量标准，该标准涉及大规模最先进模型的困难之处，缺乏新颖对象的语言基础视觉表达和推理能力，但对人类来说却很简单。我们的社区挑战是创建统一的多模态推理模型，这些模型可以回答问题，而不考虑源模态，从而使我们更接近不仅查询语言知识，而且查询更丰富的视觉在线世界的数字助手。

Sep, 2021

将图像特征与卷积序列到序列网络相结合，用于多语言视觉问答

本研究利用已预训练的最新 VQA 模型和卷积序列到序列网络整合图像特征，作为 VLSP2022-EVJVQA 多语言场景下，视觉问答任务的解决方案，在公共测试集上达到了 F1 分数 0.3442，在私人测试集上达到了 0.4210，排名第三。

Mar, 2023

视觉问答：数据集、算法和未来挑战

本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答（VQA）的研究，包括问题定义、数据集、算法和评估指标，并深入探讨了当前数据集在训练和评估 VQA 算法方面的局限性，全面回顾了现有的 VQA 算法，最后讨论了 VQA 和图像理解研究的可能未来方向。

Oct, 2016