EMNLPOct, 2023

ICU: 通过将任务分为图像字幕和语言理解来克服视觉和语言建模中的语言障碍

TL;DR通过将视觉与语言(V&L)任务分为两个阶段,ICU(图像字幕理解)将模型分为两部分:V&L 模型用英语进行图像字幕生成,然后将字幕作为交替文本,由多语言语言模型(mLM)进行跨语言语义理解。在两项任务中,我们在 IGLUE 基准测试的 9 种语言中进行实验,显示 ICU 在五种语言上可以取得新的最先进结果,并为其他语言取得可比较的结果。