Oct, 2024
通过将视觉标记总结为紧凑寄存器来提高视觉-语言模型的效率
Efficient Vision-Language Models by Summarizing Visual Tokens into
Compact Registers
TL;DR本研究解决了现有视觉-语言模型中视觉标记数量过多导致的计算开销问题。我们提出了一种名为Visual Compact Token Registers(Victor)的方法,通过将视觉信息总结为更少的寄存器标记,显著提高计算效率并减少训练时间,实验结果显示准确性损失低于4%。