Jan, 2023

使用预训练方法改善视觉语言模型的地理包容性

TL;DR提出了 Geographically Inclusive Vision-and-Language Pre-trained model(GIVL)的概念。GIVL 是一种视觉语言预训练模型,利用图像知识匹配(IKM)和图像编辑检查(IEC)两种新的预训练目标。与以类似数据规模预先培训的类似规模模型相比,GIVL 在地理多元化的视觉语言任务上表现出更好的性能平衡和最新技术水平(SOTA)。