Mar, 2024

MyVLM: 为用户特定查询个性化 VLM

TL;DR对于个性化视觉 - 语言模型,我们探索了增加外部概念头和中间特征空间中的概念嵌入来实现对用户提供的概念的识别和自然整合,并将其应用于个性化图像字幕生成和个性化视觉问答,结果表明模型可以推广到学习概念的未见图像,并保持在无关输入上的模型行为。