Apr, 2024
Groma:针对多模态大语言模型的本地化视觉标记
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models
Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi
TL;DRGroma 是一个多模式大型语言模型,具有以图像感知为基础的细粒度视觉理解能力。它能够执行区域级任务并将图像与文字进行关联,通过在图像中定位兴趣区域并将其编码成区域标记的方式实现。此外,Groma 还利用 GPT-4V 和视觉提示技术创建了一个视觉基准数据集,使其在基准测试中表现出优越的对话能力。