ICMLMay, 2022

VLUE: 一个评估视觉语言模型的多任务基准

TL;DR本研究介绍了一个名为 VLUE 的视觉语言理解评估基准,可用于评估 VLP 模型的泛化能力和效率 - 性能权衡。该基准显示了所有 VLP 模型在处理来自更多文化领域且未在预训练中出现的图像时存在较大的泛化差距,并且衡量 VLP 模型的效率 - 性能权衡可为设计选择提供有益见解。