Mar, 2024

多模式大型语言模型中的即插即用推理基础

TL;DR插拔式推理引擎 P2G 在多模态大型语言模型中的可视化推理任务表现优异,特别是在高分辨率图像中的文本和对象细节捕捉方面,与 GPT-4V 的性能相当,为模型扩展之外的有前景的替代方案。