Dec, 2021

基于图像的语言预训练

TL;DR本文提出了一种基于图像和语言语境的预训练 (GLIP) 模型,它可以同时学习目标检测和短语 grounding 任务以提升自身性能,并利用海量的图像文本对进行自我训练,从而获得语义丰富的表示。实验结果表明,GLIP 的表示具有较强的零样本迁移能力和准确性,可在各种目标识别任务上实现最先进的结果。