May, 2023

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

TL;DR本研究提出了混合模态适应方法(MMA),它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁,实现图像和语言模型的联合优化,同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型,并在两种场景下进行了实验验证,表明其训练效率和性能竞争力均优于现有多模 LLMs,且具有成为通用聊天机器人的潜力。