Jun, 2024
DeepStack: 深度堆叠视觉令牌在 LMMs 中的惊人简洁和高效
DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs
Lingchen Meng, Jianwei Yang, Rui Tian, Xiyang Dai, Zuxuan Wu...
TL;DR该研究提出一种新的架构 DeepStack 用于大型多模态模型(LMMs),通过将视觉令牌分组堆叠到与之对应的转换层以增强 LMMs 的建模能力,并在广泛的实证结果中验证了 DeepStack LMMs 的有效性。