May, 2023

视觉语言模型的可扩展性能分析

TL;DR本文介绍了一种更具可伸缩性的方法,其根据从视觉 - 语言基准中提取的大量多样化特征,并测量它们与目标模型输出的相关性。通过该方法,作者确认了之前发现的 CLIP 表现类似于词袋模型,并且在名词和动词上表现更好;作者还发现 CLIP 在处理具体词语时会出现混淆。该框架可用于其他多模态模型和基准测试。