Jul, 2023

BuboGPT:多模态 LLM 中的视觉定位

TL;DRBuboGPT 是一种多模态的 LLM,具有视觉定位和文本 - 图像 - 音频理解的能力,通过 SAM 和一个两阶段的训练方案来实现实体识别和对应目标的定位。在任意模态组合 (对齐或未对齐) 的情况下,BuboGPT 在与人类交互时表现出令人印象深刻的多模态理解和视觉定位能力。