MUST-VQA: 多语言场景文本 VQA
本文提出了可伸缩的解决方案,涉及多语言视觉问答(mVQA)的数据生成和建模,最终在 13 种语言中展现出强大性能,同时也创造了 MaXM(一个在 7 种不同语言下的纯测试数据集),从而使得 mVQA 不仅限于英语,而是扩展到其他语言中。
Sep, 2022
本文提出了一个基于越南图片的多语言视觉问答基准数据集 EVJVQA,用于评估多语言 VQA 系统或模型,并详细介绍了 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022) 的组织、方法和结果,其中前两个团队使用 ViT 预训练模型和 mT5 预训练语言模型实现多语言 QA 系统。
Feb, 2023
该研究探讨了跨语言视觉问答的许多方面,包括输入数据、微调和评估方法,研究了不同多语言多模态变压器下不同问题类型的交互。该研究还针对训练数据和模型进行了广泛的分析,旨在进一步了解为什么在某些问题类型和语言中仍存在零 - shot 效果差距,从而指导多语言 VQA 的进一步发展。
Feb, 2022
本文介绍了一个新数据集,即 ST-VQA,旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务,需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷,同时提出一系列基线方法。
May, 2019
提出了一个用于场景文本视觉问答的多模态框架,采用 “先定位再生成” 的范式,将空间边界框作为连接文本和视觉模态的桥梁,通过预先训练的语言模型增强绝对准确率。
Apr, 2023
本文介绍了 ICDAR 2019 场景文本视觉问答比赛 (ST-VQA) 的最终结果和新数据集,包括 23038 张图像和 31791 个文本实例答案,涵盖广泛的情景。该竞赛共有 3 个递增的任务,需要理解场景中的文本并回答问题。提出了一种新的评估度量标准,旨在评估文本识别和图像理解两种关键能力。结果分析提供了 VQA 系统当前的能力洞见。此数据集标志着使用场景文本实现全面图像理解的更强大、更通用的模型的重要里程碑。
Jun, 2019
本文旨在将音视频问答(AVQA)扩展到多语言环境。我们利用机器翻译提出了两个多语言 AVQA 数据集,涵盖了八种语言,并引入了 MERA 框架,该框架利用了先进的视频、音频和文本基础模型来进行多语言 AVQA 的基准测试。我们相信这项工作将开辟新的研究方向,并为未来的多语言 AVQA 提供参考基准。
Jun, 2024
本研究提供了一个多语言 TEC-VQA 的基准测试数据集 MTVQA,并通过评估多种先进的多模态大型语言模型在该数据集上的表现,发现仍有提高性能的空间,凸显了该数据集的价值。
May, 2024
构建了 CVQA,一个新的多元文化多语言视觉问答基准,覆盖了 28 个国家的文化驱动图像和问题,包括 26 种语言和 11 种文字,共提供了 9k 个问题。针对 CVQA 对几种多模态大型语言模型进行了基准测试,显示出该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为评估多模态模型的文化能力和偏见的探测套件,并希望鼓励更多研究努力来增加该领域中的文化意识和语言多样性。
Jun, 2024
本文提出了 xGQA,一个用于跨语言视觉问答任务的新的多语言评估基准,并使用适配器方法将多模型变换器模型扩展为多语言模型,结果表明简单的跨语言模型转移会导致多语言多模态失配,需要更复杂的方法来进行跨语言视觉和多语言语言建模
Sep, 2021