Feb, 2023

VLSP2022-EVJVQA挑战: 多语言视觉问答

TL;DR本文提出了一个基于越南图片的多语言视觉问答基准数据集EVJVQA,用于评估多语言VQA系统或模型,并详细介绍了9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022)的组织、方法和结果,其中前两个团队使用ViT预训练模型和mT5预训练语言模型实现多语言QA系统。