Jun, 2024

在多模态学习中利用视觉令牌扩展文本背景

TL;DR使用 Visualized In-Context Text Processing (VisInContext) 技术能够有效地增加多模态大型语言模型中的上下文文本长度,减少 GPU 内存使用和浮点运算,同时在文档理解任务和顺序文档检索中展示了巨大的潜力。