Mar, 2024

在视觉-语言模型中实现交互式区域理解

TL;DR通过引入具有明确区域建模能力的RegionVLM模型,并利用包含区域信息的Localized Narratives数据集,我们的实验表明,我们的单一通用模型不仅实现了交互式对话系统,还在各种零样本区域理解任务上展现出了卓越的性能,而不会损害其对全局图像的理解能力。