Jan, 2024

从 GPT-4 到 Gemini 和更远:通过四种方式评估 MLLMs 的一般化能力、可靠性和因果关系

TL;DR通过对专有和开源多模态大语言模型的定性研究,本文旨在增强对最近的 MLLM 在一般化、可信度和因果推理能力方面与广大公众期望之间差距的理解,主要关注文本、代码、图像和视频四个模态,最终目标是提高 MLLM 透明度,发现 14 个实证性发现以深入了解专有和开源 MLLM 的能力和限制,以实现更可靠的多模态下游应用。