Jun, 2024
LLaVolta: 通过分阶段视觉上下文压缩实现高效多模态模型
LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression
Jieneng Chen, Luoxin Ye, Ju He, Zhao-Yang Wang, Daniel Khashabi...
TL;DR通过对视觉标记和训练效率的分析研究,提出了一种名为 Visual Context Compressor 的方法,通过压缩视觉标记来提高多模式模型的训练效率,最终实现在图像语言理解和视频语言理解领域性能的提升和训练成本的降低。