Jan, 2024

LEGO:语言增强多模态基准模型

TL;DR我们提出了一种名为 LEGO 的语言增强多模型定位模型,相较于现有的多模型模型,它具备较好识别和定位图像特定区域以及视频特定时刻的能力,通过多样化的数据集构建流程进行模型训练。