Feb, 2025

LV-XAttn:多模态大语言模型中长视觉输入的分布式交叉注意力

TL;DR该研究针对在多模态大语言模型(MLLMs)中使用的大量视觉输入处理所面临的高内存需求和通信开销问题,提出了一种新的分布式交叉注意力机制LV-XAttn。通过在每个GPU上本地保留大的键值块并跨GPU交换较小的查询块,此方法有效地降低了通信开销,同时支持更长的视觉上下文,实验证明其在多种模型上可实现高达5.58倍的端到端速度提升。