MMJun, 2022

GLIPv2: 统一定位和视觉语言理解

TL;DRGLIPv2 是一个基于视觉语言的预训练模型,将定位预训练与语言视觉预训练相结合,并具有短语地基、区域 - 单词对比学习和遮蔽语言建模三个预训练任务。该模型在各种定位和理解任务上表现接近最好的水平,同时也显示了强的零件和少量样本识别性能,以及优异的理解能力。