EMNLPSep, 2021

跨语言文化下的视觉推理

TL;DR通过引入印尼语、汉语、斯瓦希里语、泰米尔语和土耳其语等语言,构建了一个新的 ImageNet-style 分层协议,从本地化的角度推荐相关概念和图像,建立了一个用于多文化及多语言视觉和语言推理的数据集 MaRVL,并列举出一系列现代模型的基线,发现其跨语言性能显著滞后于英语的监督性能。