Mar, 2024

RelationVLM: 构建大型视觉-语言模型以理解视觉关系

TL;DRRelationVLM是一种大型视觉语言模型,通过多阶段关系感知训练方案和相应的数据配置策略,使其具备理解多个图像或视频内的多个层次和类型关系的能力,该工作促进了LVLM的发展,使其能够支持更广泛的人工通用智能应用。