Apr, 2024

VISLA Benchmark: 评估嵌入对语义和词汇变化的敏感性

TL;DR通过引入VISLA基准测试,评估语言模型的语义和词汇理解能力,本论文揭示了现有最先进语言模型在理解语义细节方面的挑战,通过三句与图像相关的语义(不)等价任务,对视觉-语言模型和单模态语言模型进行评估,结果显示了在区分词汇和语义变化方面的困难,语言模型编码器对语义和词汇变化的敏感性大于单模态文本编码器,论文的贡献包括图像-文本和文本-文本检索任务的统一,无需微调的现成评估方法,并在词汇改动存在的条件下评估语言模型的语义(不)变化。