May, 2024

从文本到像素:MLLMs 中的长篇背景理解的进展

TL;DR通过将文本序列压缩到视觉像素空间中的图像,SEEKER 旨在优化长文本的紧凑编码,以便于在固定的令牌长度预算内高效处理长文本,并在理解长格式多模输入和生成长格式文本输出方面胜过所有现有专有和开源 MLLMs。