BriefGPT.xyz
Ask
alpha
关键词
region-level tasks
搜索结果 - 2
Groma:针对多模态大语言模型的本地化视觉标记
Groma 是一个多模式大型语言模型,具有以图像感知为基础的细粒度视觉理解能力。它能够执行区域级任务并将图像与文字进行关联,通过在图像中定位兴趣区域并将其编码成区域标记的方式实现。此外,Groma 还利用 GPT-4V 和视觉提示技术创建了
→
PDF
3 months ago
CVPR
RegionGPT:面向区域理解的视觉语言模型
区域语言模型 (RegionGPT) 是一种新的框架,通过改进视觉编码器的空间感知能力以及集成任务导向指令提示来实现复杂的区域级标题生成和理解,提高在复杂区域描述、推理、对象分类和引用表达理解等区域级任务上的性能。
PDF
4 months ago
Prev
Next