Jan, 2022

BLIP: 为实现统一的视觉语言理解与生成,引入语言-图像引导预训练

TL;DR本文提出了 BLIP 作为新的 VLP 框架,通过引入 captioner 生成合成字幕,并使用 filter 删除噪音数据,能灵活地传输视觉语言理解和生成任务,获得了在一系列视觉语言任务中最先进的结果,同时在零样本任务中也表现出极强的泛化能力。