May, 2023

InstructBLIP:通过指导微调实现通用的视觉 - 语言模型

TL;DR本研究系统全面地研究了基于预训练系统的 BLIP-2 视觉语言模型的指导调整方法。通过构建 InstructBLIP 模型和使用指导语音特征提取,该模型在 13 个测试集上全面超越 BLIP-2 和更大的 Flamingo 模型,在单个下游任务的微调中获得了最先进的性能。