Jun, 2024

Prism: 一个解耦和评估 VLM 能力的框架

TL;DRPrism 是一个创新的框架,旨在解决视觉问题求解中构成的知觉和推理过程的相互交织难题,通过将感知和推理分离为两个不同的阶段,实现了对专有和开源 Vision Language Models 在感知和推理能力上的系统比较和评估。通过将专注于感知的精简 VLM 与专为推理而设计的强大 LLM 相结合,Prism 在一般的视觉语言任务中取得了卓越的结果,同时大幅减少了训练和操作成本的投入。在严格的多模式基准 MMStar 上,使用 vanilla 2B LLaVA 和免费获取的 GPT-3.5 配置 Prism,在性能上媲美比其大 10 倍的 VLM。