Jan, 2023
BLIP-2:使用冻结图像编码器和大型语言模型引导语言图像预训练
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi
TL;DR本文提出 BLIP-2,一种通用且高效的预训练策略,通过使用冻结的图像编码器和大型语言模型来引导视觉语言表示学习,从而实现零样本图像到文本的生成。BLIP-2 在各种视觉语言任务上取得了最先进的性能。