Sep, 2022

MaXM:面向多语言视觉问答的模型

TL;DR本文提出了可伸缩的解决方案,涉及多语言视觉问答(mVQA)的数据生成和建模,最终在 13 种语言中展现出强大性能,同时也创造了 MaXM(一个在 7 种不同语言下的纯测试数据集),从而使得 mVQA 不仅限于英语,而是扩展到其他语言中。