BriefGPT.xyz
Dec, 2021
基于图像的语言预训练
Grounded Language-Image Pre-training
HTML
PDF
Liunian Harold Li, Pengchuan Zhang, Haotian Zhang, Jianwei Yang, Chunyuan Li...
TL;DR
本文提出了一种基于图像和语言语境的预训练 (GLIP) 模型,它可以同时学习目标检测和短语 grounding 任务以提升自身性能,并利用海量的图像文本对进行自我训练,从而获得语义丰富的表示。实验结果表明,GLIP 的表示具有较强的零样本迁移能力和准确性,可在各种目标识别任务上实现最先进的结果。
Abstract
This paper presents a
grounded language-image pre-training
(GLIP) model for learning object-level, language-aware, and
semantic-rich visual representations
. GLIP unifies object detection and phrase grounding for
→