Aug, 2023

RegionBLIP:面向整体和区域理解的统一多模态预训练框架

TL;DR本研究探讨了如何扩展多模态大型语言模型 (MLLMs) 对区域对象的理解能力,提出了一种提取区域对象特征作为 LLM 的软提示的方法,并通过新颖的 position-assisted 特征提取模块有效地从图像和点云数据中提取区域特征,通过冻结预训练的 MLLM 并对新增模态的参数进行优化,无需进行大规模的图像 - 文本数据预训练即可达到对图像和文本的理解能力,实验证明该方法能够保留 BILP-2 的图像理解能力,并进一步获取对点云模态和区域对象的理解。