CVPRMar, 2024

RegionGPT:面向区域理解的视觉语言模型

TL;DR区域语言模型 (RegionGPT) 是一种新的框架,通过改进视觉编码器的空间感知能力以及集成任务导向指令提示来实现复杂的区域级标题生成和理解,提高在复杂区域描述、推理、对象分类和引用表达理解等区域级任务上的性能。