Feb, 2024
分析基于视觉条件的语言模型的设计空间:棱镜式 VLMs
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models
Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar...
TL;DR通过一系列标准化评估和深入研究,提供了视觉相关语言模型 (VLMs) 的能力和设计决策,包括图像预处理、架构和优化等方面的细致洞察。