Dec, 2023

歌词:通过语义感知视觉对象增强细粒度语言视觉对齐和理解

TL;DR一种新的多模式预训练和指令微调范式 Lyrics,通过细粒度的跨模态协作,将从细粒度视觉精炼器中提取的局部视觉特征注入到查询转换器中,同时,在语言输入的边界框和标签方面使用从视觉精炼器中推导出的信息,通过两阶段训练方案实现模态融合,从而在各种视觉语言任务中取得了强大的性能和有希望的多模态理解和详细描绘能力。