EMNLPMay, 2022

跨媒体 - 3600:一款大规模多语言多模态评估数据集

TL;DR本文提出了 Crossmodal-3600 数据集,其中包含 3600 张图片,涵盖了 36 种语言中所使用的地区,并使用人工参考标题对其进行了注释。该数据集被应用于大规模多语言图片字幕模型的选择,并在使用 XM3600 作为自动度量的黄金参考时,展示出与人工评估更高的相关性结果。