May, 2023
Cheap and Quick: 大型语言模型高效的视觉语言指导调整
Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models
Gen Luo, Yiyi Zhou, Tianhe Ren, Shengxin Chen, Xiaoshuai Sun...
TL;DR本研究提出了混合模态适应方法(MMA),它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁,实现图像和语言模型的联合优化,同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型,并在两种场景下进行了实验验证,表明其训练效率和性能竞争力均优于现有多模 LLMs,且具有成为通用聊天机器人的潜力。