May, 2023
InstructBLIP:通过指导微调实现通用的视觉 - 语言模型
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao...
TL;DR本研究系统全面地研究了基于预训练系统的 BLIP-2 视觉语言模型的指导调整方法。通过构建 InstructBLIP 模型和使用指导语音特征提取,该模型在 13 个测试集上全面超越 BLIP-2 和更大的 Flamingo 模型,在单个下游任务的微调中获得了最先进的性能。