Oct, 2024

预集成提示信息至视觉编码的多模态大语言模型框架

TL;DR本研究针对现有多模态大语言模型(MLLMs)在视觉语言任务中的盲点,提出了PIP-MM框架,该框架将提示信息预集成到视觉编码过程中。该方法显著提高了图像特征对提示要求的敏感性,减少了冗余信息的干扰,从而在多个基准测试中展现出卓越的性能,尤其是在视觉标记数量减少的情况下,依然保持良好的生成效果。