Mar, 2025

MC-LLaVA:多概念个性化视觉语言模型

TL;DR本研究针对当前视觉语言模型个性化过程中忽视多个概念的互动问题,提出了首个多概念个性化框架MC-LLaVA。通过多概念指令调优策略,模型在单次训练中有效整合多个概念,显著提升了模型在复杂场景下的识别与定位能力,推动了视觉语言模型向更高效的用户特定助手发展。