May, 2024

多模式 LLMs 中的反向图像检索提示参数记忆

TL;DR使用 Reverse Image Retrieval(RIR)辅助生成的简单而有效的策略,对于 GPT-4 系列等最先进的多模态大型语言模型(MLLM)来说,RIR 显著提高了知识密集型的视觉问答性能,通过开放式 VQA 评估指标,GPT-4V 提高 37-43%,GPT-4 Turbo 提高 25-27%,GPT-4o 提高 18-20%。