Feb, 2023

VLSP2022-EVJVQA 挑战:多语言视觉问答

TL;DR本文提出了一个基于越南图片的多语言视觉问答基准数据集 EVJVQA,用于评估多语言 VQA 系统或模型,并详细介绍了 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022) 的组织、方法和结果,其中前两个团队使用 ViT 预训练模型和 mT5 预训练语言模型实现多语言 QA 系统。