BriefGPT.xyz
Ask
alpha
关键词
position-enhanced visual instruction tuning
搜索结果 - 1
多模态大语言模型的位置增强视觉指令调整
通过引入区域级别的视觉编码器,本文提出了一种增强图像教学调整功能的多模态大型语言模型(MLLMs),以实现更细粒度的模态交叉对齐,并设计了多种数据生成策略构建了图像 - 区域 - 语言指令数据集,实验结果表明该模型的卓越性能。
PDF
10 months ago
Prev
Next