Jun, 2024

Prism: 一个解耦和评估VLM能力的框架

TL;DRPrism是一个创新的框架,旨在解决视觉问题求解中构成的知觉和推理过程的相互交织难题,通过将感知和推理分离为两个不同的阶段,实现了对专有和开源Vision Language Models在感知和推理能力上的系统比较和评估。通过将专注于感知的精简VLM与专为推理而设计的强大LLM相结合,Prism在一般的视觉语言任务中取得了卓越的结果,同时大幅减少了训练和操作成本的投入。在严格的多模式基准MMStar上,使用vanilla 2B LLaVA和免费获取的GPT-3.5配置Prism,在性能上媲美比其大10倍的VLM。