Mar, 2024
多模式大型语言模型中的即插即用推理基础
Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models
Jiaxing Chen, Yuxuan Liu, Dehu Li, Xiang An, Ziyong Feng...
TL;DR插拔式推理引擎 P2G 在多模态大型语言模型中的可视化推理任务表现优异,特别是在高分辨率图像中的文本和对象细节捕捉方面,与 GPT-4V 的性能相当,为模型扩展之外的有前景的替代方案。