HaVQA: 用于豪萨语视觉问答和多模态研究的数据集

ACLMay, 2023

HaVQA: 用于豪萨语视觉问答和多模态研究的数据集

HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language

Shantipriya Parida, Idris Abdulmumin, Shamsuddeen Hassan Muhammad, Aneesh Bose, Guneet Singh Kohli...

TL;DR本文介绍 HaVQA 数据集，这是用于哈萨语视觉问答任务的第一个多模态数据集。数据集包含来自视觉基因组的 1,555 张图像以及经过手工翻译的 6,022 个英文问题答案对，提供了 12,044 个英文 - 豪萨语平行语句，可用于进行基线实验，包括视觉问答、视觉问答引导、仅文本和多模态机器翻译。

Abstract

This paper presents HaVQA, the first multimodal dataset for visual question-answering (VQA) tasks in the hausa language. The dataset was created by manually translating 6,022 English question-answer pairs, which

multimodal dataset visual question-answering hausa language translation baseline experiments

发现论文，激发创造

豪萨视觉基因组：用于多模式英豪机器翻译的数据集

该研究创建了首个 Hausa Visual Genome 语料库，其中包含 32923 个图像及图像描述，可用于实现 Hausa-English 机器翻译、多模式研究、图像描述等多个自然语言处理和生成任务。

May, 2022

OpenViVQA: 越南语视觉问题回答任务、数据集和多模态融合模型

本文介绍了 OpenViVQA：首个包含越南语开放式答案的大规模 VQA 数据集，包括 11,000 + 图像和 37,000+ 问答对，并提出了三个融合图像和答案信息的方法（FST，QuMLAG 和 MLPAG），并使用这些融合的特征构建答案，旨在促进研究社区针对越南语这类低资源语言开发出更广义的算法，结果与 SOTA 模型竞争力相当。

May, 2023

VLSP2022-EVJVQA 挑战：多语言视觉问答

本文提出了一个基于越南图片的多语言视觉问答基准数据集 EVJVQA，用于评估多语言 VQA 系统或模型，并详细介绍了 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022) 的组织、方法和结果，其中前两个团队使用 ViT 预训练模型和 mT5 预训练语言模型实现多语言 QA 系统。

Feb, 2023

CVQA：跨文化多语言视觉问答基准

构建了 CVQA，一个新的多元文化多语言视觉问答基准，覆盖了 28 个国家的文化驱动图像和问题，包括 26 种语言和 11 种文字，共提供了 9k 个问题。针对 CVQA 对几种多模态大型语言模型进行了基准测试，显示出该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为评估多模态模型的文化能力和偏见的探测套件，并希望鼓励更多研究努力来增加该领域中的文化意识和语言多样性。

Jun, 2024

MaXM：面向多语言视觉问答的模型

本文提出了可伸缩的解决方案，涉及多语言视觉问答（mVQA）的数据生成和建模，最终在 13 种语言中展现出强大性能，同时也创造了 MaXM（一个在 7 种不同语言下的纯测试数据集），从而使得 mVQA 不仅限于英语，而是扩展到其他语言中。

Sep, 2022

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

面向多语言音视频问答

本文旨在将音视频问答（AVQA）扩展到多语言环境。我们利用机器翻译提出了两个多语言 AVQA 数据集，涵盖了八种语言，并引入了 MERA 框架，该框架利用了先进的视频、音频和文本基础模型来进行多语言 AVQA 的基准测试。我们相信这项工作将开辟新的研究方向，并为未来的多语言 AVQA 提供参考基准。

Jun, 2024

生成式视觉问答

本研究探讨了一种新的方法来创建先进的视觉问答（VQA）模型，可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题，通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的组合。该研究的目的是调查几个成功的 VQA 模型的稳健性，评估它们对未来数据分布的性能。分析模型架构，识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性，这些数据可以增强 VQA 模型的稳健性，使其未来的同行能够更好地适应时间分布的变化。

Jul, 2023

来自在线社区的完整真实视觉问答数据集

VQAonline 是第一个所有内容都来源于真实用例的 VQA 数据集，该数据集中的答案往往较长，并且不适用于标准的 VQA 评估指标；研究发现，在长文本评估方面，六个流行的度量标准与人工判断相符度最高；使用最适合的度量标准评估六个最先进的视觉和语言基础模型在 VQAonline 上，揭示了它们最困难的问题。

Nov, 2023

TVQA: 本地化、组合式视频问答

本文提出 TVQA，一个基于 6 个流行电视节目的大规模视频问答数据集，共计包含 152,545 对 QA 对，分布在 21,793 个片段中，共涵盖了 460 小时的视频。该数据集中的问题具有组合性质，需要系统联合定位剪辑中的相关片段，理解基于字幕的对话，并识别相关的视觉概念。作者提供了该数据集的分析以及几个基线模型和一个多流端到端可训练的神经网络框架。

Sep, 2018