Nov, 2024

推理最优的视觉语言模型仅需一个视觉标记,但需要更大的模型

TL;DR本研究针对视觉语言模型(VLM)在推理过程中的高延迟问题,通过建立标尺法则来确定视觉标记与大语言模型(LLM)参数之间的最优权衡。研究发现,在视觉推理任务中,目标是使用最符合推理预算的最大LLM,同时将视觉标记数量减少到一个,以实现最小的下游错误,这一发现有望推动更高效的VLM设计。