Sep, 2024
文本引导的LLaVA:通过可学习潜在嵌入优化视觉语言模型
TG-LLaVA: Text Guided LLaVA via Learnable Latent Embeddings
TL;DR本文针对现有视觉语言模型(VLMs)中视觉编码器提升不足的问题,提出了一种新的优化方向——文本引导的LLaVA(TG-LLaVA)。通过使用可学习的潜在嵌入,分析文本指令并将其作为指导输入到视觉编码器,显著改进了特征提取的相关性,实验结果表明该方法在不同设置下均优于现有技术。此研究无需额外训练数据,展现了可观的性能提升潜力。