May, 2024

MTVQA:多语言基于文本为中心的视觉问答基准测试

TL;DR本研究提供了一个多语言 TEC-VQA 的基准测试数据集 MTVQA,并通过评估多种先进的多模态大型语言模型在该数据集上的表现,发现仍有提高性能的空间,凸显了该数据集的价值。