ACLMar, 2024

视觉 - 语言模型是否理解复合名词?

TL;DR开放词汇视觉 - 语言模型(VLMs)如 CLIP 是一种有前景的文本到图像检索方法,然而,对于复合名词(CN)是否能像对待名词一样理解得好呢?本研究构建了 Compun 基准测试以评估 VLMs 在解释 CNs 方面的有效性,并深入分析了 CLIP 对某些类型的 CNs 的有限理解。同时,提出了一种超越手写模板的替代框架,通过利用大型语言模型生成包含 CNs 的多样化描述来提高 CLIP 对 CNs 的理解。通过我们的方法在 Compun 上将 CN 的理解能力提高了 8.25%。