Mar, 2024

不是所有的注意力都有必要:针对多模态大型语言模型的参数和计算效率高的迁移学习

TL;DR本文提出了一种针对多模态大型语言模型(MLLMs)的参数和计算效率高的新调优方法,称为 Efficient Attention Skipping (EAS)。通过评估注意力冗余并跳过不重要的多头注意力机制(MHAs)来加快推理速度,同时通过传播信息适配器(PIA)以保持参数效率,进一步降低推理延迟,并通过对一组基准测试的大量实验证明,EAS 不仅保持了高性能和参数效率,还极大地提升了推理速度。