Aug, 2024
无指令调优的视觉令牌补充框架用于多模态大型语言模型
Instruction Tuning-free Visual Token Complement for Multimodal LLMs
TL;DR本研究针对现有多模态大型语言模型(MLLMs)在训练中面临的高质量指令对需求和视觉信息丢失的问题,提出了一种视觉令牌补充框架(VTC)。该框架利用文本生成图像来识别与文本无关的特征,并通过视觉选择器生成补充的视觉令牌,从而增强原始视觉输入,显著提高响应准确性,且无需额外的图像-文本对,具备无指令调优的特性。