Feb, 2024

视觉问答指导:解锁面向特定领域视觉多任务的多模态大型语言模型

TL;DR使用大型语言模型和多模态语言模型,我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式,从而扩展了多模态语言模型用于特定领域任务,实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。