Oct, 2024
二次方程并非多模态大型语言模型所需
Quadratic Is Not What You Need For Multimodal Large Language Models
TL;DR本研究解决了多模态大型语言模型(MLLMs)计算效率瓶颈问题,特别是在视觉令牌数量增加导致的二次增长计算问题。研究提出通过剪枝视觉相关计算而非输入降低视觉令牌,这一新方法实现了计算增长由二次转为线性,且经过剪枝后,模型能力在某些基准测试上已超越原模型,仅需25%的计算量。这一发现开启了MLLMs引入更密集视觉令牌的可能性。