May, 2023
InstructBLIP:通过指导微调实现通用的视觉-语言模型
InstructBLIP: Towards General-purpose Vision-Language Models with
Instruction Tuning
TL;DR本研究系统全面地研究了基于预训练系统的BLIP-2视觉语言模型的指导调整方法。通过构建InstructBLIP模型和使用指导语音特征提取,该模型在13个测试集上全面超越BLIP-2和更大的Flamingo模型,在单个下游任务的微调中获得了最先进的性能。